第8章典型的博弈理论常识(2)

书签收藏评论目录封面

在现实中，类似的情况比比皆是。现在，很多电视台的主打节目在时间段上的重叠问题本质上就是位置博弈中的纳什均衡。事实上在许多博弈中的纳什均衡点并非只有唯一的一个，而是多个，这一点很值得我们注意。总之，纳什均衡就是理性参与者之间形成的一种稳定状态，处于这种状态中的任何参与者都不愿意首先改变自己的决策。

蜈蚣博弈：合理使用倒推法

有一个人刚搬到一个小村子，这天他打算去向邻居借锯子，但又担心邻居不愿意借给他。一路上他都在胡思乱想：“如果不想借给我，他一定会找各种借口，他如果对我说他正在用怎么办？或者他说找不到怎么办？”“邻里之间不是应该互帮互助的吗？如果是他向我借东西，我一定会很乐意。可见他并不是一个可爱的人，对付这样的人我也不用太客气。”..最后，他敲开邻居的门以后，他开口说的不是：“麻烦你，我想借你的锯子用一下。”“留着你的破锯子吧，也没什么了不起！”

而是：不借就不借，

对于上面故事中的人，你也许会觉得啼笑皆非。但是借锯子这个人所用的思维方法--倒推法却很值得我们思考。

的确，倒推法能够帮助人们有效地分析完全且完美信息下的动态博弈，也很符合人们的直觉，这一点很多学者和专家都已经验证过。但是在某些情况下，却有着无法解释的缺陷。这就是在博弈论中被称为“蜈蚣博弈悖论”的一种悖论。

蜈蚣博弈是由罗森塞尔最先提出的。在这个博弈中，A、B 两个博弈参与者，轮流在“合作”和“背叛”两个策略中进行选择。假设由A 先做出策略选择，然后B 进行选择，接着又是A，如此交替进行，当然A、B 的策略选择次数是有限的，假设是100次，我们可以得出如下收益矩阵：

……A B 收益（A，B）

合作合作合作合作合作合作……合作合作（100，100）又或者是：

……A B 收益（A，B）

合作合作合作合作合作合作……合作背叛（98，101）我们可以看见，这个博弈的形状非常像一只蜈蚣，因此我们将这个博弈称为蜈蚣博弈。

在蜈蚣博弈中，A 会考虑，如果B 在100步时选择“背叛”，能够得到101的收益，这比选择“合作”得到的收益要大，按照理性人的假定，B 所作出的策略应该是“背叛”，而非“合作”。这样一来，A 的最佳策略就不是在第99步的时候选择“合作”，而是选择“背叛”。而B 也同样会作此考虑，那么他的最佳理性人策略就应该是在第98步时选择背叛……如此推论下去，最后的结论就是：从一开始的时候，A 就选择“背叛”，B 也选择“背叛”，这种情况下A、B 的收益都为1。但是显然，这种所谓的最佳策略要比大家都选择“合作”时的收益100差很多。

从逻辑的角度看，我们运用逆推归纳法，得出的结论是“背叛”；而从直觉上看，我们的最佳策略是“合作”，因为一开始就都采用“背叛”策略，则A、B 的收益都只能为l，而采取合作性策略就能获得100的收益，当然也有可能A 一开始合作但B 背叛，A 获得0收益，但是0或者1与相比实在是太少了，这样看还是采取“合作”策略为好。

显然，在博弈中，人们的真实行动与运用逆推归纳法推出的理论预测是不一致的，二者之间是相矛盾的，这就是蜈蚣博弈的悖论。

事实上，在实际生活中，绝大多数人也会选择合作策略，而不会选择利用逆推归纳法推论出来的背叛策略。如英国博弈论专家就在实验中发现，几乎所有实验参与者都不会一开始就采取背叛的策略。那么，这是不是说逆推归纳法是无效的呢？

许多学者都对此进行了研究，结果认为虽然A、B 一开始都选择合作性策略有违博弈中的倒推分析方法的逻辑，但这确实优于最初就选择背叛所带来的收益。不过，博弈参与者都是理性的经济人，会出于自身利益的考虑而选择背叛。也就是说，A、B 双方的合作关系很有可能坚持不到最后，会由于倒推法起作用在某一步被打破。这在现实中的对应情形是，参与者不会第一步的时候就采取“背叛”策略，但难以确定会在何时背叛。

在蜈蚣博弈悖论中，逆推归纳法之所以失效，一则，是因为其结果不符合双方的长远利益，其归纳路径与博弈参与者的长远利益相悖，因而博弈参与者不会按逆推归纳法的逻辑推理选择策略；二则，与博弈者双方彼此信任、默契程度有关，程度越深，逆推归纳法就越难起作用，相反，如果双方信任、默契程度不够，逆推归纳法就会越容易起作用。

下面我们就以生活中常见的恋爱故事来对这个博弈加以说明：

恋爱就其本质而言就是一种交往，属于蜈蚣博弈，其目的是使个人效用（如愉快、幸福的感觉等）最大化，是一个典型的双人动态博弈过程，并且随着交往过程的加深和时间推移，其收益逐步上升。

博弈从左到右逐步进行，横向箭头表示参与者选择继续交往的策略，向下的箭头代表该博弈参与者选择“分手”的策略，括号里代表双方的收益情况，第一个数字是小美的收益，第二个数字是小鹏的收益。从图中，我们可以很直观地看到，恋爱不断发展，爱情效用不断增加。由于男女生理结构和现实因素，因此如果女方提出分手双方获得的效用是相等的，但如果是男方先提出分手，男方得到的效用多而女方得到的效用少，假设其差额为3。

在交往初期，小美就发现彼此不合而提出分手，则两人收益均为1；小美如果选择继续交往，而小鹏选择分手，小美受到了感情上的欺骗，其收益为0，小鹏占了便宜，收益为3；这样博弈的第一个阶段就完成了。而随着双方交往程度的加深，两人爱情总效用在不断增长，如果能够坚持到最后，双方的爱情效益都达到最大化，获得圆满的爱情结局。

值得我们注意的是，小鹏的爱情收益比小美的爱情收益早一步到达最大化，这时，他就很难有动力继续交往下去。这样一来，如果利用倒推法，为了使自己的损失最小，小美的最佳策略就是在一开始时就提出分手，然而现实情况往往不是这样。这就出现了蜈蚣博弈悖论的情况。

其实要想爱情能够达到圆满结局，需要从三方面做努力：其一，小美和小鹏之间应该有坚定的爱情信念，也就是说，追求两个人总体爱情效用最大化，而不是个人爱情效用最大化；其二，给予对方充分的信任，而不是猜疑对方的行为；其三，博弈参与者更加倾向于哪一个最终结局，如虽然最大收益都是10，但是小鹏更加倾向于（10，10）的方式获得这个效用，而不是通过（8，10）的方式来获得这个效用，这在博弈论中叫做“贴现因子”。

由此可见，倒推法其实是有其适用范围的，在一定条件下、一定范围内才有效。如果忽略了这一点，笼统去谈论倒推法的有效性就势必会陷入博弈论的误区。同时，我们也不能以倒推法的预测与实际有一些不符为理由否定它在分析和预测行为中的可靠性。总之，只要将倒推法用于合适的条件和前提下，倒推法仍然是一种分析动态博弈的有效方法。

帕累托最优：博弈的理想结果

两个孩子分一个橙子，几经协商，他们决定由一个孩子切橙子，而另一个孩子选橙子。最后，两个孩子一人得到了半个橙子，高高兴兴地回家了。

第一个孩子回到家，把橙子的皮去掉，将留下来的果肉榨成了鲜美的果汁；而另一个孩子回到家里，把果肉去掉，将橙子皮磨碎，用其作调料做了一个可口的蛋糕。

在这个故事中，虽然每个孩子都各有所得，都得到了半个橙子，分配很公平公正，但遗憾的是，他们的收益并未最大化。如果他们能够做好良好的沟通，事先申明自己的利益所在，那么第一个孩子就能得到多一倍的果汁，而第二个孩子得到的橙皮粉也会更多。

在博弈中，像这样双方盲目追求形式上、立场上的公平，结果导致双方各自的利益不能达到最大化是非常常见的，但结果却并不理想。在博弈中，我们同样提倡“帕累托最优”，希望博弈的结果能够尽可能地理想化。

那么，什么是帕累托最优呢？

类似于乌托邦一样的人类生存的理想王国，经济学家们也进行过热烈的讨论。与众不同的是，经济学家们本着务实的精神，将有限的社会资源在使用时的公平和效率纳入了讨论范围，从而产生了“帕累托最优”的概念。

在不损害任何人利益的前提下，无论做什么努力都不能使某些人的处境变得更好的状态就是经济学家们讨论的公平与效率的“理想王国”。由于意大利经济学家维弗雷多·帕累托在关于经济效率和收入分配的研究中最早使用了这个概念，因此被命名为“帕累托最优”，也称为帕累托效率。

帕累托最优是指资源分配的一种状态，是所有个体都达到极限，在不损害他人的情况下，已经不可能使自己变得更好的一种理想状态。

与“帕累托最优”相应的是“帕累托改进”。“帕累托最优”指的是一种状态，“帕累托改进”指的是一种变化，通过这种变化，能够在没有使任何人处境变坏的前提下，使得至少一个人的处境能变得更好。帕累托最优是以没有帕累托改进余地为前提的；而帕累托改进是达到帕累托最优的途径和方法。

一般来说，当没有帕累托改进的余地时，当处于帕累托最优时，通常会同时满足以下3个条件：

（1）交换最优--无论个体之间进行何种交易，都不可能使任何一个个体从中获得更大的利益和满足。此时，对每一个消费者来说，所有商品的边际替代率都是相同的，并且消费者的效用也达到了最大。

（2）生产最优--经济体必须处于生产可能性边界上，此时生产产量是最大化的，而生产要素之间的边际技术替代率也是相同的。

（3）产品混合最优--经济体产出产品的组合是消费者偏好的反应，此时，任何生产者在两种商品之间的边际产品转换率等于这两种商品之间的边际替代率。

在博弈中，人们可以通过某种努力，在不损害参与者既得利益的情况下，使有人的收益更多，那么我们就需要进行帕累托改进。

体育场将进行一场盛大的足球比赛，体育场能够容纳50000人，但是主办方却只卖出了49000张票，这便没有达到帕累托最优，还存在帕累托改进的空间。如主办方可以通过特价票的方法将剩余的票尽快销售出去，从而在不损害任何人利益的前提下，使更多人享有观看比赛的福利，使他们的境况得以改善。倘若票已经全部卖完，如果再加售1000张附加票，这样虽然能够使这1000人因能观看比赛而境况得以改善，但却会损害原有的50000名观众的利益，因为过于拥挤的空间会让他们感到不舒服。既然已经达到了帕累托最优，这样就不存在帕累托改进的空间了。

普遍认为，如果一场博弈最后没有达到帕累托最优而存在帕累托改进的余地，那么这样的状态是低效的、不理想的，是需要避免的。今天，帕累托最优已经成为了衡量一个经济体和政治方针的非常重要的标准，也是衡量一场博弈是否具有效率的重要标准。

比如，在市场竞争中，一家企业采用一种措施，能在不损害对手的利益前提下为自己争取更多的利益，那么实施这种措施就是在进行帕累托改进，以达到最后双赢的帕累托最优。也就是说，这种措施是可取的、可行的，值得提倡的。

总而言之，“帕累托最优”无疑是经济学领域一颗闪烁着迷人光泽的宝石。它包含着公平公正的道德、自由平等的精神以及对优劣进行评价的效率标准，在没有任何损失的情况下，使境况得以改善，是非常令人神往的。因此，在管理中，管理者要做帕累托改进，尽可能地趋近帕累托最优。

但需要指出的是，“帕累托最优”描述的是一种过于理想化的经济状态，在现实经济中是比较难以达到的，因为“帕累托改进”存在着一个很严格的条件限制，即不损害任何人的利益。于是，经济学家们从长远和大局上考虑，又提出了“卡尔多―希克斯”改进，专家们提倡，如果一种变革所带来的利益是大于损失的，那么就是可取的。因此，在追求帕累托最优的同时，管理者还需要用一种长远的、大局的眼光来看待问题，不拘一格地进行“卡尔多―希克斯”改进。

枪手博弈：有进的气魄，更有退的胸怀

从古到今，人们在博弈中或为名或为利，想取胜都讲究“狭路相逢勇者胜”，也习惯了奋勇争先、一往无前。然而，被人们忽略的是，有的时候，退也是博弈中不可缺少的策略。

刘伯温急流勇退、辞官归田，才免遭杀身之祸。相反，韩信只知进而不知退，最终死于吕后之手。的确，在博弈中，有的时候退才是生存之道，尤其对于弱者，退的策略更具有意义。为了进一步了解，下面就让我们来看一个“三方对决”的博弈案例。

有A、B、C 三人进行决斗，每人的枪里都只有两颗子弹，每轮每人只能射击一次，由射击技术最差的人开始，射击技术最好的人最后射。现在我们假设A 的技术最差，他的命中率只有35%；B 的技术稍好些，命中率有75%；而C 的技术最好，能够达到百发百中。也就是说，A 最先射击，B 第二，C 最后，他们在射击的时候可以选择对其他任意一个人开枪，被射中的人会立即死去，而如果没有击中对方，就很可能引来对手的报复。当然，他们也可以选择对空射击。

那么，在这样一个三方对决的博弈中，对于A 来说，什么策略才是最佳的呢？

首先让我们来看一看A 的3种策略选择：①对空射击；②向B 射击；③向C 射击。哪一种策略才是A 的优势策略，取决于该策略下A 的生存率。假设A 选择“对空射击”策略。那么接下来轮到B 射击，而B 在三种策略选择中必然会选择射击C。因为如果B 不射击C，那么C 选择击杀B 自己的存活率有65%，选择击杀A 自己的存活率只有25%，这样一来C 必然选择击杀B，B 为了生存，只得先下手为强，先射C 再射A。这时，A 的存活概率为0.75×（0.35+0.65×0.25）≈38.44%。如果B 射杀C 未成功，则C 射杀B。然后第二轮射杀开始，A 要么成功射杀C，要么被C 射杀，其存活概率为0.25×0.35=8.75%。也就是说，A 采取“对空射击”策略，A 的存活率为如果A 采取“向C 射击”的策略时，则A 有35％的可能性使C 毙命，接下来B 必然对付唯一的对手A，这时A 幸存的概率为25％，如果A 侥幸不死，进入第二轮射击，A 再射击B，若未中，则B 又向A 开枪，如果A 侥幸未被击中，则生还，而A 的生还的概率为0.35×0.25×（0.65+0.35×≈6.45%。若A 没有击中C，那么就等同于“对空射击”了，其存活概率为0.65×47.19％≈30.67%。也就是说，A 选择“射杀C”时其存活率为6.45%+30.67%=37.12％。

如果A 选择“射击B”的决策，那么他有35％的可能性会成功，但同时A 也必死无疑了，因为B 毙命后，A 就成了唯一威胁C 生命的人，C 必然会除之而后快。当然，还有65%的可能A 射不中B，但这种情况等同于对空射击。因此，“射击B”是A 的严格劣势策略。

第8章典型的博弈理论常识(2)

哈佛公开课

沟通的艺术

处理人脉关系必知的九大玄机

这才是阿里巴巴

亚里士多德的智慧

武掌星空

绝梦一尸舞万年

仗剑寰宇

崆峒掌门

流年夏沫

我和我的美女秘书

Rupert of Hentzau

安于宿命

智慧锦囊

封战苍穹

第8章 典型的博弈理论常识(2)

第8章典型的博弈理论常识(2)