第23章最优化策略(4)

书签收藏评论目录封面

可以发现，该博弈的纳什均衡有两个：（等待，行驶）和（穿越，停车）但是，如果行人和司机没有协调而自由地选取策略，完全有可能出现非均衡结果，比如（穿越，行驶）和（停车，等待）。而红绿灯作为一个可观察的信号，使得这个博弈具有了相关均衡，正因为不知道对方的具体选择，于是大家就约定红灯停车行人，绿灯就停人行车，通过观察红绿灯信号来协调双方的行动，这就是相关均衡。

公平观念

公平观念有时也可以作为推测最可能的纳什均衡的工具。有许多实验经济学的研究发现，经济行为中的确存在公平法则——比如“最后通牒”实验的结果。

最后通牒实验通常是这样设计的：两个参与人分一笔钱，比如说一元钱，甲提分配方案，乙选择接受或拒绝。若乙接受，则实施甲的分配方案；若乙拒绝，则这笔钱被实验者收回，甲乙什么都得不到。从博弈论的标准解来看，均衡结果应当是甲提出分给乙一分钱或甚至更少（如果货币还可以继续细分的话），其余归自己所有。但实验结果与此并不相符。这个实验最早在德国进行，后来又在美国、欧洲、以色列、日本、东南亚、俄罗斯、南美等地区和国家进行，实验结果都支持了公平原则，结果大致是：提出较公平的分配方案（给对方40％～50％）的人，占受试者40％～60％，其中对半分居多；20％～30％的人提出非常不公平的分配方案（分给对方低于30％），但是这些不公平的提议，总是以很高的概率被对方拒绝。人们也曾认为，这可能是由于所分配的钱金额太低所致。但后来，弗农·史密斯（2002年诺贝尔经济学奖得主）以每次100美元作为刺激对50个受试者进行实验，以及Lisa.A.Cameron在印尼以每次5000、40000以及200000卢比（200000卢比相当于受试者3个月的工资）作为刺激进行实验，得到的结果仍然支持了公平法则。

当两个人分配100元时，最可能的分配结果是什么？50元！这也许就是公平法则在起作用，因为每个人本身不具备对这100元的产权，他们会觉得自己没有理由比别人多分一点，也没有理由比别人少分一点。行为经济学研究的发现似乎也在说明这一点。比如，近年来声名鹊起的马修·拉宾（Matthew Rabin）就通过一系列实验指出，人们的行为通常是偏离狭义的自利的，他们会选择那些不会最大化自身收入的行为，当这些行为影响他人收入时，人们会在交易中牺牲金钱以惩罚那些对他们不利的人，或是与那些没有要求分配的人分享金钱，再或是自愿为公共物品做贡献。从已经建立的“社会偏好模型”来看，其大致包括了两个范畴：分配的偏好和互惠性偏好。分配的偏好模型假设人们只关心收入的分配，他们试图减少自己与他人收入的差异，当他们盈利时会做出牺牲以帮助他人，而当他们亏损时则会不帮助任何人，甚至伤害到一些人，也就是所谓的帕累托损害的牺牲，这种偏好被称为“厌恶差异”；而在互惠性偏好模型中，一方是基于他对另一个人是否公正对待他的信念来增加或降低另一方的收入的。但无论哪种偏好，似乎都可以看到公平观念的力量。

我们用一系列例子说明了不同博弈结构下的纳什均衡。在本章所提到的纳什均衡，都是纯策略纳什均衡。所谓纯策略就是说参与人对任何一个特定行动的选择概率为1或0。但是，有些情况下，博弈将不存在纯策略纳什均衡的情况，比如赌硬币博弈。

赌硬币博弈说的是，两个小孩各自拿出一枚硬币进行赌博。每个人都把硬币正面向上或背面向上并放在桌面用手捂着，然后同时移开手，如果两枚硬币同面（都为正面或都为背面）则小孩甲胜；如果两枚硬币异面（一正面一背面），则小孩乙胜。

画线法表明，这个博弈没有纯策略均衡。因为若给定小孩乙选择正面，则小孩甲最好选择正面；而给定小孩甲选择正面，小孩乙最好选择背面，这说明（正面，正面）不是一个纳什均衡。同样的道理、可以推出其他三种策略组合也不是纳什均衡，因为没有哪一种组合是双方在给定对手策略下没有动机改变自己策略的情况。或者，更简单地，我们不能发现在哪一组策略组合下双方的赢利数字下都划有横线，没有！因此，不存在纯策略纳什均衡。

但是，没有纯策略均衡是不是就没有纳什均衡呢？不是的，纳什均衡存在性定理证明了任何一个有限博弈都至少存在一个纳什均衡。所谓有限，是指参与人数量和策略空间是有限的。那么，像没有纯策略纳什均衡的情况，根据纳什均衡存在性定理，一定还存在着我们没找到的纳什均衡——这就是我们将要讨论的混合策略纳什均衡。

人们用纳什均衡来表示博弈的可预测稳定结果。纳什均衡实际上是这样一种策略组合，该组合中每个人的策略都是对其他人的策略的最优反应。纳什均衡可以是一个或者多个，也有可能没有纯策略均衡。性别战博弈是双方存在局部利益冲突的博弈。懦夫博弈是一种骑虎难下的博弈，在这样的博弈中建立起粗暴的形象有时是有好处的。协调博弈是存在共同偏好的结果的博弈。不过，博弈的结果并不一定是最符合双方偏好的，这要看双方能否成功地协调彼此的行为。对于多重纳什均衡的情况，可以通过聚点、学习与协调、相关信号、公平观念等来推测最可能的结果。有限博弈一定存在着纳什均衡（包括混合策略均衡）。

7.让策略混合起来

如果你与某人合作，通常还是让行动有规律可循会比较好一些。但在竞争的情况下，最佳策略常常都涉及到随机的不可预测的行为。

——大卫·吕埃勒（DavidRuelle，物理学家）攻而必取者，攻其所不守也；守而必固者，守其所必攻也。故善攻者，敌不知其所守；善守者，敌不知其所攻。微乎微乎，至于无形：神乎神乎，至于无声，故能为敌之司命。

——孙子（中国古代军事家）

假设你在地面逃亡，而你的敌人正在空中对你实施打击。你可以选择躲到坚固的掩体里面，也可以选择躲到一间民房里。你首先可能想到躲到坚固掩体下面是更好的，因为更坚固的地方会更安全。但你可能马上也认识到，你的敌人很可能也会猜测到你将躲到最坚固的地方，所以他们也会集中火力轰炸那些坚固的掩体——最安全的地方反而成了最危险的地方；于是你决定还是到民房，但是你的敌人也会认识到这一点而进攻民房……最后，你想不出该躲在哪里，于是大家都在碰运气。

这样的局势并非假想，现实中的确存在诸多类似的情形，我们称之为混合对策情形。

回想一下懦夫博弈。当时我们得到了两个纯策略纳什均衡：（向前，转向）和（转向，向前）。

但问题可以想得更复杂些，假如你是司机甲，你究竟会转向还是继续向前？这很可能取决于你对司机乙的判断：司机乙选择转向还是选择向前决定着你的选择。但是你无法肯定司机乙是否会转向，因为他的行为取决于他对你的揣摩。所以，最终你也许只能猜测司机乙有多少可能转向、有多少可能向前。

假如，你认为司机乙转向的可能性为50%，向前的可能性也为50％，那么你应该选择转向还是向前？这取决于你采取不同策略的预期赢利，它们可以计算如下：

1.你选择转向的预期赢利：1×50%+（-2）×50%=-0.5；2.你选择向前的预期赢利：2×50%+（-4）×50%=-1。

你将发现，当司机乙转向、向前的可能性各为50%的时候，你选择转向是最合适的，因为转向的预期赢利（-0.5）比向前的预期赢利（-1）要大一些。

但是，司机乙当然知道你在猜测他选择两种策略的概率，他会不会真如你所想的那样以各自50%的概率来选择转向或向前呢？如果他确实以各50%的概率在两个策略间选择，那么他知道你就一定会选择转向（这是对你最适合的策略）；但是既然你选择转向，那么他又何必以各自50%的概率来选择其两个策略呢，他完全可以选择向前。

假如，你认为司机乙转向的可能性为80%，向前的可能性仅为20%，那么你又应该选择什么策略？这仍然取决于你采取不同策略的预期赢利，如下：

1.你选择转向的预期赢利：1×80%+（-2）×20%=0.4；2.你选择向前的预期赢利：2×80%+（-4）×20%=0.8。

显然，此情之下你选择向前（得到0.8）比选择转向（得到0.4）更合适。但是，给定你选择向前，司机乙必定选择转向，即他选择转向的概率将为1，而不是你事先认为的0.8。也就是说，从你的先验估计出发的结果会推翻你的先验估计。

同样地，司机乙对你也在进行一系列的估计。问题是，在什么状态，可以刚好使你们的估计能够和从该估计出发的行为选择趋于一致呢？如果能够趋于一致，那就是达到了纳什均衡状态。

假如存在一个概率q，司机乙以概率q选择转向，那么他选择向前的概率将是1-q。而你选择不同策略的预期赢利就会是：

1.你选择转向的预期赢利：1×q+（-2）×（1-q）=3q-2；2.你选择向前的预期赢利：2×q+（-4）×（1-q）=6q-4。

如果司机乙真的以概率q选择转向，那么意味着他不会始终重复地选择某个策略（纯策略），而他不重复地选择某个策略的条件必须是你也不会重复地选择某个策略。因此，他以概率q选择转向必然意味着在这样的情况下你不可能有合适的纯策略；换句话说，他也必须使你在你的两个策略之间进行随机选择。

那么，在什么情况下你会在两个策略之间进行随机选择呢？那就只有一种情况：当你选择任何一个策略的预期赢利都完全相同的时候——因为这样你就无法选出哪个策略更优，就只有随机选择。也就是说，司机乙选择q，使得：

3q-2=6q即q′=2/3，1-q′=1/3

这样，司机乙以2/3的概率选择转向，以1/3的概率选择向前，就可以使你在两个策略之间无差异而无法采取纯策略（读者可计算，你选择转向的预期赢利是0，选择向前的预期赢利也是0）。由此，我们可以记下司机乙采取的混合策略：（2/3，1/3）。

反过来，司机乙对你的选择也有着概率判断，而为了保持这种判断信念的后果与信念本身一致，你也以一定概率（比如p）随机选择你的策略，且p需要满足使司机乙在他的两个策略之间没有差异。此时他两种策略的预期赢利为：

1.司机乙选择转向的预期赢利：l×p+（-2）×（1-p）=3p-2；2.司机乙选择向前的预期赢利：2×p+（-4）×（1-p）=6p-4。

而你需要选择p的值，使3p-2=6p-4，可得到p′=2/3，1-p′=1/3。读者可计算，此时司机乙无论选转向还是选向前，其预期赢利皆为0。由此，我们可以记下你采取的混合策略（2/3，1/3）。

由于你以2/3的概率选择转向，以1/3的概率选择向前，而司机乙以2/3的概率选择转向，以1/3的概率选择向前，刚好可以互为对彼此的最优反应，因此它是一个纳什均衡状态，被称为混合策略纳什均衡，可以记为｛（2/3，1/3），（2/3，1/3）｝。

会发生车毁人伤的情况吗？

既然你和司机乙都采用了（2/3，1/3）的混合策略，那就意味着各种结果都是可能出现的。我们可以计算各种情况出现的概率，策略组合（转向，转向）成为现实结果的概率是2/3×2/3=4/9（因为你和司机乙各有2/3的概率选择转向）。

在“麦琪的礼物”那个博弈中，纯策略纳什均衡是“丈夫不卖表而妻子剪发”和“丈夫卖表而妻子不剪发”，但小说的结局却是丈夫卖了表，妻子剪了发。从混合策略角度来说，我们可以发现丈夫有混合策略：以2/3的概率卖表，以1/3的概率不卖表。妻子也有混合策略：以2/3的概率剪发，以1/3的概率不剪发（至于怎么求解出该混合策略，我们将在下节中介绍）。在这样的混合策略下，小说的结局实际上是最可能出现的结果，概率为4/9，其他各情况出现的概率分别为2/9，2/9，1/9。

下面我们介绍一种简便的求解混合策略的方法，它不一定严谨，但是管用。

以“麦琪的礼物”为例来说明。我们假设丈夫卖表的概率为p，那么不卖表的概率为1-p。假设妻子剪发的概率为q，那么不剪发的概率为1-q。

各参与人在各策略下的预期赢利为：

丈夫卖表的预期赢利：0×q+2×（1-q）=2－2q（1）不卖的预期赢利：1×q+0×（1-q）=q（2）妻子剪发的预期赢利：0×p+2×（1-p）=2－2p（3）不剪的预期赢利：l×p+0×（1-P）=P（4）读者有必要注意，丈夫的某个策略的赢利是该策略对应的行中，丈夫的赢利与妻子的概率积之和；而妻子的某个策略的赢利是该策略对应的列中妻子的赢利与丈夫的概率积之和。

纳什均衡应满足，妻子选择P使丈夫在各策略之间的预期赢利没有差异，即使式子（1）等于式子（2）：2-2q=q，可解出q′=2/3；丈夫选择q，使妻子在各策略之间的预期赢利没有差异，即使式子（3）等于式子（4）：2-2p=p，可解出p′=2/3。

第23章最优化策略(4)

做人有分寸做事有尺度

青少年受益一生的心态培养全集

积极沟通的7种习惯

武则天的智慧

老板最大

我许你一生一世

重生之极品一生

女帝风华：妖孽千岁爱上朕

择仙途

女总裁的顶级高手

福妻驾到

凤霸江山

孤独者战歌

放肆的青春放肆飞

惊鸿之天才驭兽师

第23章 最优化策略(4)

第23章最优化策略(4)