为简单起见,我们来分析特征函数所表述的三人博弈。在这种熟悉的博弈类型中,哪种博弈究其本质认为博弈者会作出合作行为,且其合作方式与他们在(一般类型的)简单谈判问题中的方式一样?假设在一个特征函数型三人博弈中,v(1,2,3)=1, v(1,2)=b3, v(1,3)=b2, v(2,3)=b1(这是对我2008年发表于《国际博弈论述评》的论文中所使用的b1,b2和b3的周期性表示)。(另外,任何单独参与者Pk的函数v[k]均应为零。)如果b1,b2和b3都比+1小得多,那么该博弈的核仁或者其他由“随机提议”模型衍生出的评估建议就可以对博弈的(1/3, 1/3, 1/3)作出评估。而另一方面,沙普利值给出的评估则与b1,b2和b3呈线性关系。
为何有些博弈没有出现“替代合作”的情况
有一种博弈由于自身特性,虽然具有合作博弈的形式——因为参与者通常能够自由地通过各种方式进行合作(在博弈呈现出的规范结构之外)——但博弈者们一般不会自发地采用同样的合作模式(往往还包括财富和资源的分配模式),而是有可能采用有着明显区别的不同行为模式。国际政治和战争中敌友立场互换的情形与此类似,这在欧洲历史上每隔一定时间就会出现。因此在我看来,冯·诺依曼和摩根斯顿理论中的“稳定集”或“解”在许多博弈中的确是合乎理论的。这些博弈的结构性没有那么强,不会让博弈者们自发达成某种一致的合作模式和资源分配方式。“稳定集”在结构性强的博弈中可能变得极其复杂(而且也许难以投入实际使用,比如发展出一套有用的仲裁方案来规避可以避免的冲突)。
以三人合作博弈举个简单的例子。用特征函数来描述这场博弈,其规范表达是这样的:v(i)=0, v(1,2,3)=1, v(1,2)=b3, v(1,3)=b2, v(2,3)=b1。如果b1,b2和b3都(相对)较小,这场博弈大概就自然而然地成为了“替代合作博弈”。因此,如果这种整体合作可以实现,博弈者们自然会积极配合,似乎也只有通过形成一致的意见他们才能避免由行为不当造成的损失,也才能互惠互利(这些例子也就成为了二人博弈中讨价还价问题的一个延伸)。
是否能对特定合作模式进行预测?
在合作博弈问题上,博弈论专家们进一步发展,不仅试图促进博弈各方在妥协的基础上达成合作,同时还就切实可行的合作模式向参与者提供良策。
但是原则上,不同人可能会给出各种不同的建议。譬如,“班扎夫值”(Banzhaf value)可以用来处理立法机构中同盟成员的权利评估问题,但同时“沙普利值”(Shapley value)可以向同一群立法委员给出完全不同的咨询意见,与前者相互竞争。另外,核仁也好,“改良核仁”也罢,二者都可以用于普遍适用的博弈评估准则。
仲裁方案产生后只要得到采纳和遵循即可,就像谨守一条宗教律法一样。对于个体参与者来说,只有当他们感到比起经过千辛万苦最终达成妥协,仲裁可以以更低的成本和更简单的方式实现他们所渴望的那种公正时,他们才会最乐于进行仲裁。
将合作博弈约简为非合作博弈的尝试
近几年来,一些博弈论专家一直试图(以某种方式)将三人合作博弈约简为非合作博弈,以便均衡理论能够得到应用;我自己也是其中一员。这么做的最终目的不过是评估博弈参与者的价值,或者预测博弈者经由协商可能形成何种联盟,后者很好理解。简化方法中的一部分取决于“随机提议者”为了把一般三人博弈的难度降至三人非合作博弈水平而采取的策略。
实践证明这个方法似乎效果极好,尤其当使用阿曼多·戈梅斯(Armando Gomes)的方法时,评估出来的博弈结果不是同沙普利值相仿就是与核仁类似,究竟出现哪种特定情形有赖于(v(1,2)+v(1,3)+v(2,3))/v(1,2,3)这一比例,即只与博弈的特征函数相关。
此外,我还想过将三人合作博弈中的难点问题通过某种程序与重复进行的非合作博弈联系起来。这种重复博弈的设计初衷是为了类比某种能够将一个存在难解冲突的博弈(比如囚徒困境)转化为互惠均衡的非合作重复性博弈。这是美国国家科学基金会支持的一个项目,并得到了三位先后加入该项目的普林斯顿大学学生的协助。一篇题为《联合建模的代理方法与博弈中的合作》的论文正是根据这项研究发表的。该文见《国际博弈论述评》(IGTR)2008年第10卷第4号。
计算层面的未来研究计划
上文提及的《国际博弈论述评》中的那篇文章使我也参与了一项实验博弈的研究。实验中我发现,在广义上保持并利用“接纳的方法”是可能的,这样联盟就能够以一名参与者或领导者“接受”另一名参与者或领导者的领导而建立起来了。
至于实验的设计,没有人告诉这些重复性实验博弈的参与者,对于和他们有频繁交往的其他参与者的可视行为要怎样作出反应。当然这样设计有它的目的,类似于一个阶段性囚徒困境形式的重复性博弈,实验对象相互之间可以进行交流,这样每个参与者通过表彰有合作价值的行为就可以推动整个联盟达成合作。
基于实验的合作博弈相关研究
一个四人研究小组设计并进行了一个实验程序,研究三方博弈中作为参与者的对象的行为,而根据这个合作体系的特征函数参与博弈是可能得到奖励的(事先已经有接受行为和对合作最终达成时可获奖励的详细说明)。有时候结果只能在二人合作中产生,这是由于参与者具有冒险倾向。在这种情形下,说得简单一点,(根据特征函数)双方参与者都得到他们形成的联盟的一半数值。我希望能超越这种简化,为重复性博弈找到更精辟的模型。
这四名研究者分别是:罗斯玛丽·内格尔(Rosemarie Nagel),约翰·纳什,阿克塞尔·欧肯菲尔斯(Jr., Axel Ockenfels)和莱因哈德·泽尔滕。实验是在科隆大学的一个实验室中进行的。我想说的是,从这种可能是基于谈判或合作协商的理论模型设计出来的实验得出的观察,能够自然而然地把其他很多不同理论模型也解释清楚,这在原则上是十分可贵的。我们未来预期进行的研究计划,一项可能要纳入69个变量、针对重复性博弈模型的研究,也正是受到实验结果及其与42个变量重复博弈模型的关系启发而来的。
三人重复博弈的新模型中共存均衡的一系列相互联系的变量
在这个段落标题之下,我说明了如何将一套包含69个实变量的69个方程式运用到计算模型中,以此改进(并一定程度上修正)曾作为我论文(2008年12月发表于《国际博弈论述评》)发表依据的模型。但是实际上,除非人们能够对“奇点”博弈情形(如“囚徒困境”)的平衡方程——这类平衡方程阐述了怎样用某一类均衡来表示(重复博弈中的)合作解——有所发展,否则要说明这些变量是相当不切实际的。
在预定的工作中,我们将会涉及具有连续可变的纯策略(对每一个博弈者而言)的无限期重复博弈的模型。每一个参与者的策略参数将会与他/她如何表现得有益于其他参与者相关联,抑或是当另一参与者以行动代表他(她)自己或代表两名参与者,即充当代理人(指挥者)时,他/她在观察到这一参与者的行为中不受欢迎的品质后会在惩罚方式上如何做出回应。
这与我们之前曾经研究过的计算模型是同样的,不过如今我们可以提供更为复杂的基本反应数组。一个代理人或参与者可以对共存的代理人或参与者关于接受场景(乙方通过奖励代理权给甲方来表示认可)的表现做出积极的或消极的反应。
当以数学方法研究(运用我在《国际博弈论述评》中的论文所述及的研究模型)曾在科隆大学实验室被研究过的在选中的试验游戏系列中的第九个游戏时,遇到了一个具体的数学错误。所获得的那场博弈中的算术求解模型的数据存在两种负实数的概率!当这种联合首先由参与者1领导,其次由参与者2指挥时,这些体现出参与者3采取行动来“接受”参与者1和参与者2的联合的概率。而这是与概率的基本阐释相矛盾的。
我们希望可以构造出博弈者们有关于其他参与者“需求”的选择,这样一来参与者或代理人总是会同步地对其他参与者们的“反接受”行为提出要求(这样第一部分的阵营可以视作是可用的选择)。那么,既然这个可能在数学上自然地需要“反接受几率”成为正数,副作用则将是需要的——在计算指令中被用作方程式——而那个几率将会成为一个正数。
事实上,我们希望能通过研究“试验数学”,从而在各种自然模型就进化合作而言的可行性与价值方面得到一些启发。