从这个矩阵可以看出,如果两个厂商都决定做广告,厂商A赚得利润10,厂商B仍赚得5。如果厂商A做广告而厂商B不做,厂商将赚得15,而厂商B只能赚得零。如果厂商A不做广告而厂商B做广告,而厂商A赚得6,而厂商B赚得8,厂商A和厂商B都不做广告,厂商A赚得10,厂商B赚得2,从以上情况可以看出,如果两家厂商都是理性的,这个博弈的结果是这两家厂商都做广告,这是两家厂商的上策。
但是,在实际生活中并不是始终存在着上策。上述广告得益矩阵可能发生以下变化:
变化了后广告博弈得益矩阵
这个矩阵同上一矩阵的变化发生在右下解,即如果两家厂商都不做广告,厂商B赚到利润2,厂商A将赚到利润20(看来,广告费用非常昂贵,而且厂商A的广告主要是对付厂商B的)。在这种矩阵中,厂商A并不存在上策,它的最优决策取决于厂商B的选择。在这种情况下,厂商A必须将自己放在厂商B的位置。在厂商B的角度看,登广告比不登广告好,在考虑到登广告的情况下,厂商A也会登。从这里得出的结论,在B的决策既定的情况下,A所得是它所能做的最好的,在A的决策既定的情况下,B所做的也是它所能做的最好的。
二、非合作博弈中的纳什均衡
对于在非合作博弈领域中是否能出现均衡现象,就是说,是否能做到彼此都有利,这是人们在市场经济中长期探索的问题。
例如,在一个城市中,有东南西北门,是否商业区应该分设在东南西北门,这样,似乎可以方便顾客,但是,事实上,繁华商业区则集中在城市中心。这就好比在海滩边上摆摊一样,通常海边上的游泳者都希望在距离自己近的地方购买饮料,因此,摊位似乎应该分散对各自有利,然而,商人都有自己的理性,他想做海滩两边顾客的生意,因此,摊位设在海滩中心,你把摊位设在中心,别的小贩也会这样做,于是在海滩中心形成了摊贩群体,这就同商业中心一样。
目前出现的“硅谷”、“高科技工业园区”,以至“中关村”,可能都属于这类现象。
人们发现,同一城市的两家航空公司飞往同一目的地的航班往往被安排在同一时间,各电视台为争取可能多的观众,在黄金时段安排能吸引广大观众的节目,以及在总统竞选中,要推出能吸引尽可能多的中间立场的选民的纲领等等。在中国传统哲学中,反对“走极端”,而主张“中庸之道”,这也是追求某种均衡状态。
在博弈理论中,每一博弈方都是因追求利益的最大化,但同时必须考虑博弈对手的决策或预测可能采取的决策,从而选定自己的对策。
对于这种均衡,美国经济学家纳什在1949年当数学研究生时就作了探索,1994年,纳什获诺贝尔经济学奖。他在1949年写的研究生论文《n人博弈中的均衡点》一文提出了被称为“纳什均衡”的基本内容:
“我们可以定义n人博弈中的一个概念,其中每个博弈方都有一个有限纯策略集合,并且对应于从每个博弈方的策略集合中各取一个策略组成的每一个n维纯策略向量,都有一个对这n个博弈方的确定性支付的集合。对于是在纯策略上的概率分布的混合策略来说,得益函数是各博弈方的数学期望,因此,是各个博弈方据以采用他们的多个纯策略的多元性线函数形式。”
“任何由每个博弈方各一个策略组成的n维策略向量,都可以看作是n个博弈方的n个策略空间相乘得到的乘积空间中的一个点,一个这样的n维策略向量就可以导出另一个,只要满足每个博弈方在导出n维策略向量中的策略,与被策略向量其他n-1个博弈方的利益结合,能够给采用它的博弈方带来最高的期望利益。一个自导出的n维策略向量称为一个均衡点。”
用比较通俗的语言来解释,纳什均衡就是上策均衡。
在知道博弈方登广告以后,我方决定登广告,这是纳什均衡。
但是,这里讲的只是纯策略的均衡。现实生活是非常复杂的,存在着许多不确定性,例如,我们有时不清楚对方采取什么策略,有时对方采取的策略有变化,例如,拿一枚硬币来说,在这个博弈中,各博弈方选择正面或反面,且两博弈方同时亮出他们的硬币,如果两硬币对上,博弈方A获胜并从B处赢得1元,如果两硬币没对上,则博弈方B获胜并从A处获得1元。
每个博弈方,各一个策略组成的策略组合,其中每个博弈方的策略,都是针对所有其他博弈方的策略形成的,少一个元素的策略组合的最佳反应,“最佳反应”指的是该策略带给采用它的博弈方的利益或期望利益,大于或至少不小于其他任何策略能够带来的利益。
下列图表对我们理解什么是纳什均衡很有好处。
上策均衡:我所做的是不管你做什么我所能做的最好的。
你所做的是不管我做什么你所能做的最好的。
纳什均衡:我所做的是给定你做的我所能做的最好的。
你所做的是给定我做的你所能做的最好的。
从上面我们所举的是否登广告的例子,就可以进一步了解何谓纳什均衡。
不管对方是否登广告,我方登广告是最好的,就去登广告。
这里不可能存在纯策略的纳什均衡。因为A知道B出反面,他一定会出反面,相反,B知道A出反面,他一定会出正面,这里没有纳什均衡解,但是,如果采用混合战略,有随机分布出现,有时运气在A方,有时运气在B方,双方有输有赢,这种混合策略反而可能出现某种均衡,这也是纳什均衡,用纳什的原话,叫做多个纯策略的多元线性函数。数学上的术语非常严密,但是,通俗解释一下,也就不难了解,在经济学中,主要研究纯策略,但在社会现象中,恐怕混合策略更值得研究。
在《资源配置理论》中我们用了简单的图形式,说明供求曲线对价格的影响,了解市场供求一般均衡点对资源配置的影响,我们现在可以用下图来表示价格上纳什均衡点:
这里厂商1和厂商2销售的是有差别的产品,而各厂商的需求取决于它自己的价格和它的竞争者的价格。而厂商同时选择它们的价格,且都将竞争者的价格当作给定的。厂商1的反应曲线以厂商2所定价格的函数的形式给出了它的利润最大化价格,而这对厂商2也是相似的。纳什均衡就在两条反应曲线的交点,此时各厂商定价4美元,这个价格是给定竞争者价格时所能定的最好的价格,因此不存在改变价格的冲动。图中也给出了串通均衡。如果两厂商合作起来定价,它们会要价6美元。
这两个图说明,用市场的方式配置资源是可以达到均衡状态的,但是,用市场串通的办法并不能达到均衡状态。市场竞争某种程度上也可以看作是某种博弈,这里必须进一步探索这种博弈的均衡,即纳什均衡。因此,必须解决能实现纳什均衡的博弈规则,或者解决市场经济中的游戏规则问题,即市场经济的制度问题。这是我们为什么要重视研究博弈理论和纳什均衡的原因。
三、进化博弈论
当然,在实际生活中比上述博弈要复杂得多,就拿象棋来说,应当是一种简单的博弈,但是,要根据对方下的棋,作出最佳反映,也是非常艰难的,而且是变化无穷的,看来,世界象棋冠军还是战胜了程序设计最完善的电脑。求出纳什均衡,需要双方具有高度的理性,从经济学中,研究完全信息静态博弈,完全信息动态博弈,不完全信息静态博弈和不完全信息动态博弈,等等,都是研究纳什均衡的理性基础问题,限于篇幅,我们这里不再一一介绍了。
从比较经济体制的角度看,或更正确地说,从计划体制向市场体制过渡的角度看,进化博弈理论的研究是具有特殊重要意义的。
计划体制隐含的博弈假定是中央计划机关或政府本身没有任何特殊的利益,而各经济组织只要服从计划机关或政府,就可以获得最大的利益。这是一种完全合作、具有完全理性的博弈假定。当然,这种假定并不符合社会现实。实际上,计划机关和政府各部门同样具有自己的利益,各经济组织或企业同样具有自身的利益,同样存在着非合作的博弈关系,例如,中央计划机关需要下级组织多上缴利润,而经济组织需要多留利润,以扩大生产,或增加职工福利,也需要寻求某种均衡,但是,在企业没有自主权或产权的情况下,是很难寻找均衡点的,因此,在实际现实生活中,无论政府或企业的利益都受到损害,于是双方都喜欢市场经济,于是,开始从计划体制向市场体制过渡,出现了某种新的博弈关系。
如何建立这种新型的博弈关系,实现从计划体制向市场体制的过渡,看来,这同理解纳什均衡的方法有类似之处。一种理性主义的解释是博弈方在对博弈问题进行分析和推断的基础上一次性选择的结果。与上述理性主义解释不同,进化博弈论则认为,纳什均衡并不是或不一定是博弈方一次性选择的结果,而是一个修正和改进向纳什均衡调整、逼近的动态过程。
通常我们认为动物和植物根本没有理性推理的能力,甚至没有意识和有意识的判断和选择,最多只有很少的出于本能或者直觉的选择,与人类的理性能力相比,动物和植物的“理性”和“能力”显然要低下许多,但是它们的行为最终也会稳定于纳什均衡。
显然,生物的进行过程不能用理性主义来解释,而只能用群体行为来解释。实际上,纳什在其开创性的博士论文中已经给出了这样的“群体行为解释”。
我们现在用“群体行为”来解释均衡点:在这个解释中,解并没有很显着的意义。我们并不需要假设参加者有关于总体博弈结构的充分认识,也不要求参加者有进行任何复杂的推理过程的愿望和能力,但必须假定参加者能够积累关于各种纯策略采用时的相对优势的实证信息。
更详细一点,我们假设在博弈的各个位置上都有大量参加者,再让我们假设博弈的“平均规模”包含从n个群体中随机抽取的n个参加者,并且各个纯策略以一个稳定的平均频率被相关群体的“平均成员”抽取。
由于在不同位置上博弈的个体之间不存在合作,因此,在博弈中,一个特定的n维纯策略向量被采用的概率,应该是这n个纯策略在一次随机的博弈中各自被采用的概率的乘积。
纳什由此得出结论:“代表各个群体的平均行为的混合策略形成了一个均衡点。”。
纳什认为,通过推理分析,得出一次性选择均衡策略实际上是没有意义的,他甚至不需要参加者有关总体博弈结构的充分知识,也不要求参加者对其他参加者的行为或策略有判断和预测,只要求“参加者能够积累关于各种纯策略被采用时的相对优势的象征信息,也就是,能够了解各种策略被采用时好坏的结果,采取好的战略,放弃差的战略。纳什认为,群体中的各个成员都按这一方式思维和行动,就会达到均衡。
用这个观点来了解如何从计划体制向市场体制过渡,是非常有意义的,计划体制过渡,决不是一次性的选择行为,似乎在一个美丽的早晨就可以实现的,而实际上是重复博弈和各种混合战略的结果,只要每个参加者在实际中真正感觉到市场体制比计划体制好,逐渐会形成稳定的市场经济的博弈规则,会符合理性的纳什均衡。
生物的博弈进化论被称作“进化稳定战略”,假设一个所有成员采用相同策略的种群出现了只有很少个体采用不同策略的变异,如果这种变异策略只有较低的增值成功率,那么该种群的大部分个体不会采用这种战略,反之,这种变异战略取得成功,有较高的增值成功率,这种变异战略就会变得稳定,这是生物进化的动态逻辑过程。
实际上,体制转换也可以看作是进化的稳定过程,其得益率当然不同于生物的较高的增值成功率,而是经济实绩和经济成长率等等,当群体中某些成员体制转换成功,产生实效,人们往往会去模仿,出现稳定的进化过程。
在博弈进化论看来,体制转换主要是学习、完成、仿效和累积经验的过程,这是很有意义的。
四、共同的知识
在前面,我们已经知道,制度无非是博弈均衡,制度无非是博弈规则。
在博弈进化论的观点来看,博弈均衡规则的形成是同人们共同知识的进化分不开的。
博弈论中所说的共同知识,同我们所说的共识和共同的信仰是不同的。计划体制往往是建立在共同信仰的基础上的,在博弈论的观点来看,市场体制则是在建立共同知识的基础上的。因此,弄清博弈论中的共同知识概念十分必要。
在博弈论中通常会举一个“脏脸问题”的故事来说明共同知识的概念,现在假设有三个人,每个人的脸都是脏的,如果你分别问三个人是否脸脏,他们都不能回答你,因为他们无法看到自己的脸。这时,你只要说一句,你们三个人肯定有一个人的脸是脏的,这时,事情会立即发生变化。第一个人和第二个人虽然不能立即回答,但是,第三个人立即会回答,“我的脸是脏的”,随后,第一个人、第二个人也会立即回答,自己的脸是脏的了。第一个人听到你的提示后,如果看到其他两个人的脸是干净的,他会立即回答,他的脸是脏的。第二个人看到第一个人不能回答,可以判断第一个人和第三个人有脏脸,但还不能得出自己的脸是脏的这一结论。据此第三个人可以肯定如果第二个人看到自己的脸是干净的,他立即会作出“脸脏”的回答,但是,他没有立即回答,说明第三个人的脸一定是脏的。这时,第三个人可以立即回答,“自己的脸是脏的”。
从博弈论的观点来看,这种提示成了一种“共同知识”,共同知识不是某种信息,而是某种信息结构,涉及信息传播和识别的方式。
在比较制度分析中,青木昌彦“把制度定义为参与人主观博弈模型中明显和共同的因素——关于博弈实际进行方式的共有理念。”(sharedbeliefs)
sharedbeliefs,同前面说的博弈论中所理解的共同知识有关。这里决不能把sharedbeliefs理解成某种共同的信念或共同的信仰,或某种共识。在博弈论中,Beliefs(理念)通常指决策者对不确定性的判断,即决策者主观认为的每种可能状态是真实状态的各自可能性大小,也可以说是“主观概率”。在这里,青木昌彦说的就是这种主观博弈模型。