我们先要介绍最优反应。最优反应是指,给定对手选定一个策略,则我选择某个策略比选择其他策略都要好,那么选择这“某个策略”就是我对于对手选定策略的最优反应。譬如在“麦琪的礼物”的博弈中,给定妻子剪发,丈夫的最优反应是不卖表(因为卖表只得到0,不卖表却得到1);给定妻子不剪发,则丈夫的最优反应是卖表。同理,我们也可找出妻子对丈夫的任意一个策略的最优反应,给定丈夫卖表,妻子的最优反应是不剪发;给定丈夫不卖表,妻子的最优反应是剪发。
纳什均衡是这样一种状态,在该状态下每个参与人所采取的策略都是对于其他参与人的策略的最优反应。以二人博弈为例,纳什均衡就是一个策略组合(甲的策略,乙的策略),甲的策略是对乙的策略的最优反应,而乙的策略也是对甲的策略的最优反应。譬如,在囚徒困境博弈中,我们说(甲供认,乙供认)是一个纳什均衡,就因为它满足纳什均衡定义所要求的特性——甲供认是对乙供认的最优反应,而乙供认是对甲供认的最优反应。
换而言之,在纳什均衡状态下,所有参与人都已选取其最优反应。既然如此,我们可以通过判断一个策略组合中的策略是否满足成为彼此的最优反应来确认它是否是纳什均衡。我们可以采取画线法,即做一个图表,并在每一方的最优反应下画线。如果双方画线的部分相互对应,那么就代表该组合中的策略彼此是最优反应,该策略组合就是我们要寻找的纳什均衡。
现在我们来看一个比我们前面的例子都要复杂些的例子,因为前面的例子中每人只有两个可选策略,而这里每个人有三个可选策略,但画线法求解纳什均衡的难度并没有增加。我们在给定张三的每一个策略选择下找到李四的最大赢利所对应的每一策略(显然,应该在张三每个策略对应的行上去找),然后在最大支付下画一横线;同样地,我们接着又在给定李四的每一个策略选择下找到张三的最大赢利所对应的每一策略(显然,应该在李四的每个策略对应的列上去找),然后在最大支付下画一横线。最后,我们将那些张三和李四的赢利下都画有横线所对应的策略组合找出来,它们就是纳什均衡。
有了画线法,对于任何以赢利表表示的博弈,我们都可以通过画线法寻找纳什均衡。因此我们现在可以放开手脚,探讨我们感兴趣的博弈,尤其是以下几个经典的静态博弈模型。
有一对夫妻,丈夫喜欢看足球赛节目,妻子喜欢看肥皂剧节目,但是家里只有一台电视,于是就产生了争夺频道的矛盾。假设双方都同意看足球赛,则丈夫可得到2单位效用,妻子得到1单位效用;如果都同意看肥皂剧,则丈夫可得到1单位效用,妻子得到2单位效用;如果双方意见不一致,结果只好大家都不看,各自只能得到0单位效用。
可以用画线法求解该博弈的纳什均衡,均衡结果是(足球赛,足球赛)和(肥皂剧,肥皂剧)。这个博弈的一个典型特征是,如果对方一意坚持,则顺从对方比与对方抗争要好。一方坚决选择自己喜欢的节目时,顺从至少可以得到1单位效用,而抗争则只能得到0单位效用。这与现实中的故事是一致的,夫妻双方一方坚持己见的时候,另一方常常会迁就一些,做出让步。
性别战博弈具有与麦琪的礼物相同的博弈结构。该博弈结构的显著特点是,博弈有两个均衡,博弈双方各自会偏爱一个均衡,比如丈夫偏爱(足球赛,足球赛)均衡,而妻子偏爱(肥皂剧,肥皂剧)均衡;不过他们还是有一些共同利益的,因为任何一个均衡中,他们都可以得到比非均衡状态更多的赢利。
在性别战中,究竟哪一个均衡会出现呢?也许这取决于夫妻俩在家庭中的地位,如果什么都是丈夫说了算,那么很可能出现丈夫偏爱的均衡;或者也可能出现轮流做主的情况。但更多的时候,在性别战博弈中建立一个强硬的形象也许是有好处的。
铁腕上司与鹰派下属
性别战博弈的一个现实例子是组织中上下级的博弈。所有在层级组织中工作的人们都知道,组织中的上下级关系是很微妙的。有些组织中上级对待下属非常强硬,被称为铁腕上司;有些组织里下级对待上级毫不买账,被称为鹰派下属。假设一个上司和其下属进行博弈,他们在某个有争议的问题上各自都可以选择对彼此的强硬态度和屈从态度。
用画线法不难发现,这个博弈中的纳什均衡是(强硬,屈从)和(屈从,强硬)。如果上司强硬,则下属应屈从;如果下属强硬,上司最好屈从。这与通常所看到的组织中的状况是一样的,如果上司态度坚决,下属只好委曲求全;如果下属完全不买账,上司只好做出一些让步。
这个博弈对我们有什么启示呢?在这个博弈中,如果上司树立起铁腕上司的形象,他就可能从中获得好处。一个粗暴的、不近人情的上司往往令员工更为畏惧,而不敢与其针锋相对,那么均衡的结果很可能是(强硬,屈从)。反过来,如果一个下属素有鹰派下属形象,那么上司往往也会让其三分,均衡结果很可能是(屈从,强硬)。
当然,读者朋友也许会说,铁腕上司是常见的,鹰派下属似乎不大常见啊。其实不然,组织中上司被架空权力的现象并不鲜见,在一些政治组织中尤其如此。有些政治组织的领袖以残暴的铁腕著称;有些政治组织的领袖却只是一个傀儡而已。
在20世纪50年代,美国有一部风靡一时的电影《无故的反叛》。片中迪恩与他的中学同学玩了一场博弈:大家把车开向悬崖,获胜的一方是在他的车越过悬崖之前最后从车里面跳出来的那位。在一些香港片中,也有这种比胆大的博弈。
我们这里要介绍的懦夫博弈与此有一点不同,那就是两个司机的车不是开向悬崖。而是在一个可能彼此相撞的过程中开车向前。每个人可以在相撞前转向一边而避免相撞,但这将使他被视为“懦夫”;他也可以选择继续向前——如果两个人都向前,那么就会出现车毁人伤的局面;但若一个人转向而另一个人向前,那么向前的司机将成为“勇士”。
懦夫博弈虽然是我们构造出的例子,但是跟我们现实中的有些问题是类似的。比如,两辆相向行使的车狭路相逢,互相都不让道的情况。从博弈的赢利结构来看,应该说双方采取一种合作态度——至少是部分的合作态度——选择转向可能是有利的。但是使用画线法求解我们立即可以得到,(转向,转向)不是纳什均衡结果。纳什均衡结果将是(向前,转向)和(转向,向前)。即是说,均衡结果将是一个司机向前,另一个司机转向避让。
懦夫博弈有着与性别战博弈不同的结构特征,那就是如果一方坚持要进行博弈,那么另一方就难以退出博弈(退出博弈也会被视为“懦夫”),即形成了骑虎难下的局面。而此时,冒险选择向前而获胜的一方,将自己的幸福建立在了对方的痛苦之上。假定博弈参与的一方是鲁莽、不顾后果的人,另一方是足够理性的人,那么鲁莽者极可能是博弈的胜出者。如果这种懦夫博弈进行多次,则冒险选择向前而成功的参与人就更有信心在将来采取这种策略,他很可能会树立起一种粗暴的形象使得对手在未来的对局中害怕从而获得好处。下面要介绍的一个商战例子似乎很好地诠释了上述思想。
20世纪70年代,在通用食品公司与宝洁公司的斗争中,通用食品公司就凭借其鲁莽和粗暴而获得了斗争的胜利。当时美国通用食品公司和宝洁公司都生产非速溶性咖啡,通用食品公司的Maxwell House咖啡占据了东部43%的市场,宝洁公司Folger咖啡的销售额则在西部领先。1971年,宝洁公司在俄亥俄州大打广告,试图扩大东部市场。通用食品公司立即增加了在俄亥俄地区的广告投入,并大幅度降价。Maxwell House咖啡的价格甚至低过了成本,通用食品公司在该地区的利润率从降价前的30%降到了降价后的-30%。在宝洁公司放弃在该地区的努力后,通用食品公司也就降低了在该地区的广告投入并提升价格,利润恢复到降价前的水平。后来,宝洁公司在两家公司共同占领市场的中西部城市扬斯敦增加广告并降价,试图将通用食品公司逼出该地区。作为报复,通用食品公司则在堪萨斯地区降价。几个回合之后,通用公司树立了一个粗暴的报复者形象,这实际上向其他企业传递了一个信号:谁要跟我争夺市场,我就跟谁同归于尽!于是在以后的岁月里,几乎没有公司试图与通用食品公司夺取市场。
通用食品公司这种自杀式报复其实跟懦夫博弈中的选择向前是完全类似的。它通过冒险采取这种策略最终成功地利用了对手,并使对手感到害怕而退避三舍。
协调博弈是又一类与性别战、懦夫博弈不同的博弈。在这样的博弈中,双方都存在共同偏好的均衡。
一个正在考虑选择新的内部电邮系统(internale-mail system)或内部互联网系统(intranet system)的公司,以及一个正在考虑制造它们的供应商,它们的两个选择是:建立技术先进的系统,或者建立一个功能简单的一般系统。他们假定更先进的系统真的能够提供更多的功能。
可以发现,如果建立先进系统,两个参与人的净收入都将更好(这不是说现实永远如此!这里仅仅是假设在这个特定的决策下是如此)。可能发生的最糟糕的情况是一个参与人确定先进系统而另一个参与人却坚持一般系统。在这样的情况下将没有交易,大家也就没有赢利。为了能在一起合作,供应商和用户必须选择一个相容的标准,即战略选择,因此他们的战略必须相互吻合。
通过画线法可以得到两个纳什均衡——(先进,先进)和(一般,一般)。但若他们可以廉价沟通的话,我们有理由相信(先进、先进)将是比(一般,一般)更容易出现的纳什均衡。因为一方请求对方选先进,对方会答应(因为对方选先进也是最好的)。
6.多重均衡中最可能的结果
在本章的例子中,我们发现很多博弈可能存在多重均衡的情况。多重均衡降低了博弈的解释力——因为一方面我们无法知道哪个均衡会出现,另一方面我们还发现现实中真正出现的结果还有可能根本就不是均衡结果(比如麦琪的礼物和古巴导弹危机的真实结局就不是均衡结果)。
但是,如果为博弈添加上某些背景,也许我们还是可以合理预测哪些均衡结果是最容易出现的。一些博弈论专家提出了如下一些预测的方法。
聚点
非数理博弈论专家托马斯·谢林认为,在现实生活中,博弈参与人可以使用某些被博弈模型抽象掉的信息来达到一个聚点均衡。某个点之所以成为“聚点”,是因为博弈各方的文化和经验使他们相信这个点是大家都容易想到的、习惯选择的点。譬如我们讲到的懦夫博弈中,如果司机甲是鲁莽者,司机乙更理智,这个信息双方都清楚,那么司机甲“向前”而司机乙“转向”就会是一个聚点均衡。比如在组织中的政治行为博弈中,如果上司是铁腕派,而下属是温和派,那么可以推测(强硬,屈从)就是一个聚点均衡。
如果博弈重复多次,则过去的历史常常就规定了聚点之所在。假设一所学院每到周一下午就开会,大家在会议室的座位本来是不固定的,但是大家在每学期第一次会议时所坐的位置,基本上会在这个学期保持不变。因为每次开会时大家就会习惯性地坐在上次坐过的位置,这种座位配置也同产生了聚点一样。新婚夫妻的家务分担博弈也是如此,在婚姻初期谁家务做得多,那就意味着可能这一辈子他/她都会做更多的家务,这也是一个聚点。
廉价磋商
在有些博弈中,如果博弈各方能够无成本或低成本地进行磋商,也可能会使得某些纳什均衡出现。譬如,协调博弈中,如果供应商先做一个新闻发布会声明将选择先进系统,或者客户先与供应商联系表明其意图,那么(先进,先进)就会成为惟一的均衡。
当然,像麦琪的礼物那样的博弈,也可以通过廉价沟通来确认最可能的均衡结果。譬如丈夫对妻子讲会送她一把梳子(当然,事先告诉她会送她什么可能就不浪漫了),那么更可能的均衡结果是(卖表,不剪)。
即使没有磋商,纳什均衡也可以通过参与人的学习而出现。假设博弈重复很多次,即使参与人最初的行动难以协调,但在博弈若干次后,某种特定的协调模式便可以形成。特别当假定参与人在每一轮根据其对手以前的“平均”策略来选择自己的最优策略时,博弈有可能收敛于一个纳什均衡。这涉及到进化博弈论和进化稳定均衡,大家可以参考更高级的博弈论著作。
相关均衡概念是由博弈论专家奥曼(Aumann)提出的,即如果博弈的参与人可以根据某个共同观测到的信号选择行动,就可能出现相关均衡。
司机和行人的博弈是一个典型的相关均衡。在一条马路上,一个行人试图到马路对面。行驶中的司机可以选择停车让行人,也可以选择不停;行人可以选择穿越马路或者继续等待。