按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
这样的博弈中,每个小孩各取三个策略的1/3是纳什均衡。
由此可见,纯策略是参与者一次性选取的,并且坚持他选取的策略。而混合策略是参与者在各种备选策略中采取随机方式选取的。
在博弈中,参与者可以改变他的策略,而使得他的策略选取满足一定的概率。当博弈是零和博弈时,即一方所得是另外一方的所失时,此时只有混合策略均衡。对于任何一方来说,此时不可能有纯策略的占优策略。
位置博弈的策略
有这么一个大家都很熟悉的现象,那就是在每个大大小小的城市街道上,经常见到一些地段上的商店十分拥挤,形成一个繁荣的商业中心区,但另一些地段却十分冷僻,没什么商店。
更有意思的是,往往同类型的商家总是聚集在比较近的地方,比如肯德基、麦当劳之间总是紧紧相邻。再如超市现象,前两年有很多人对超市的布局发表了一些议论。因为有人注意到,如果在一条街上有2~3家超市的话,这几家超市经常会“相依为邻”,选址离得很近,倘若它们稍微分散地布置于街上,无疑对市民的购物提供相当的便利,因此他们认为超市“拥挤”在一起属于资源浪费。
类似的事情也发生于国内各省级电视台的节目播放。很多电视迷会发现,大部分电视台总是将最精彩的节目放在相同的时间段,甚至有些时候是在相同时间段播放类似的节目,比如你播“快乐大本营”,我就播“超级总动员”;你播“玫瑰之约”,我就播“单身男女”。人都说文人相轻,电视台也是这么相煎太急。
博弈论能够对这个现象作出科学的解释。首先对一个简单的博弈模型进行叙述:
假设有条完全笔直的公路,连接城市A到城市B之间的交通。这条公路上每天行驶着大量的车辆,并且车流量在公路上是均匀分布的。假设有两家快餐店,我们不妨假设为靠高速公路起家的麦当劳与肯德基,它们要在这条公路上选择一个位置开设快餐,招揽来往车辆。为了能够更加清晰地说明这个博弈,我们不得不画一张图。
再对该模型作一个合乎逻辑的假定:通常情况下,车辆总是乐意到距自己最近的快餐店购买食物。根据这个原则,从资源的最佳配置来看,麦当劳、肯德基应该分别开在1/4、3/4处是最优。
在这种均匀散布的情况下,每家快餐店都拥有1/2的顾客量,同时对于开车的人们总体来说,这种策略的选择,车辆到快餐店的总的距离最短。
然而,人生不如意事十之八九,天并不总能遂人之愿。肯德基与麦当劳都是百年老店,自然是精明之至,从经济学上就是具有经济理性。他们只要手段合法,总是希望自己的生意尽可能地红火,至于其他人的生意的好坏则与己无关。
出于这种理性,肯德基分店经理肯定会想到:如果我将店铺从3/4点处向左移一点,那么1/4点之间的中点不再是1/2点处,而是位于1/2点的靠左边一点。这等于说,这一移位,肯德基将从麦当劳夺取部分顾客,这对于肯德基单方面来说无疑是一个好主意。当然麦当劳也不甘示弱,作为一个“理性人”,麦当劳自然也应该想到将自己的店铺从1/4点处向右移动以争取更多的顾客。
不难想象,双方博弈的结果将使他们的店铺设置在l/2中点附近达到纳什均衡状态,甲乙两人相依为邻且相安无事地做起快餐生意。如果我们放宽条件,不是两家快餐店,而是很多家快餐店,很容易分析得到结果:这些快餐店仍然会在1/2处设店达到纳什均衡。
同样的道理,如果地段的繁华等其他原因在一条路上都可以认为到处相同的话,没有一个商家会将自己安置于某条路的一头,只要条件许可,超市将几乎趋向于相依为邻,这种现象完全可以看做公正的市场竞争的合理结果。这就是很多城市商业中心形成的原理,在博弈论中称为位置博弈。
电视台之间在时间段上的重叠问题在本质上就是位置博弈。事实上,我们只要将时间设想为上述案例中的公路,就不难分析出:市场竞争的结果就是,观众青睐的精彩节目将集中在同一黄金时段。在这种情况下,电视台之间的竞争会更加激烈,为了获得收视率,电视台只能在制作质量上下功夫,最终获得实惠的仍然是广大观众。
西方国家在名义上是民权政治。实际上,选举上台的各个政党之间的政策并没有多大差别。就拿美国来说,民主党与共和党为了能够获得总统大选的胜利,必须要尽量争取最多的选民。两党在制订政策时,必然以这个目的为原则。我们把选民的政治主张看成是位置博弈中的均匀分布的人群,把两个政党看成是两个店铺,最终的结果必然是两个政党的政策趋向于折衷,并且非常近似。从这个意义上来说,西方政党的换届选举倒真是有“换汤不换药”的味道。
猎鹿模型的合作哲学
社会学告诉我们,在人类文明之初的原始社会,人们维生的方式主要是狩猎。
话说某个部落有两个出色的猎人,某一天他们狩猎的时候,看到一头梅花鹿。于是两人商量,只要守住梅花鹿可能逃跑的两个路口,梅花鹿就会无路可逃。只要他们能够齐心协力,梅花鹿就会成为他们的盘中餐。不过只要其中有任何一人放弃围捕,梅花鹿就会逃跑掉。
“福兮祸之所依;祸兮福之所伏。”有时运气太好并不一定有好的结果。正当两个猎人严阵以待,围捕梅花鹿的时候,在两个路口都跑过一群兔子,如果猎人去抓兔子,会抓住4只兔子。从维持生存的角度来看,4只兔子可以供一个人吃4天,1只梅花鹿如果被抓住将被两个猎人平分,可供每人吃10天。这里不妨假设两个猎人叫A和B。
在这个矩阵图中,每一个格子都代表一种博弈的结果。具体说来:
1.左上角的格子表示,猎人A和B都抓兔子,结果是猎人A和B都能吃饱4天;
2.左下角的格子表示,猎人A抓兔子,猎人B打梅花鹿,结果是猎人A可以吃饱4天,B则一无所获;
3.在右上角,猎人A打梅花鹿,猎人B抓兔子,结果是猎人A一无所获,猎人B可以吃饱4天;
4.在右下角,猎人A和B合作抓捕梅花鹿,结果是两人平分猎物,都可以吃饱10天。
在这个博弈中,根据纳什均衡的定义,应用博弈论中的“严格劣势删除法”(有兴趣的读者可以找本书参考文献中的相关书籍阅读,这里不做详细介绍。)可以得到该博弈有两个纳什均衡点,那就是:要么分别打兔子,每人吃饱4天;要么合作,每人吃饱10天。
两个纳什均衡,就是两个可能的结局。两种结局到底哪一个最终发生,这无法用纳什均衡本身来确定。
比较'10,10'和'4,4'两个纳什均衡,明显的事实是,两人一起去猎梅花鹿比各自去抓兔子可以让每个人多吃6天。按照经济学的说法,合作猎鹿的纳什均衡,分头抓打兔子的纳什均衡,具有帕累托优势。与'4,4'相比,'10,10'不仅有整体福利改进,而且每个人都得到福利改进。
换一种更加严密的说法就是,'10,10'与'4,4'相比,其中一方收益增大,而其它各方的境况都不受损害。这就是'10,10'对于'4,4'具有帕累托优势的含义。
在经济学中,帕累托效率准则是:经济的效率体现于配置社会资源以改善人们的境况,主要看资源是否已经被充分利用。如果资源已经被充分利用,要想再改善我就必须损害你或别的什么人,要想再改善你就必须损害另外某个人。
一句话简单概括,要想再改善任何人都必须损害别的人了,这时候就说一个经济已经实现了帕累托效率。
相反,如果还可以在不损害别人的情况下改善任何人,就认为经济资源尚未充分利用,就不能说已经达到帕累托效率。效率是指资源配置已达到这样一种境地,即任何重新改变资源配置的方式,都不可能使一部分人在没有其他人受损的情况下受益。这一资源配置的状态,被称为“帕累托最优”(Pareto optimum)状态,或称为“帕累托有效”(Pareto efficient)。
目前在世界上比比皆是的企业强强联合,就接近于猎鹿模型的帕累托改善,跨国汽车公司的联合、日本两大银行的联合等等均属此列,这种强强联合造成的结果是资金雄厚、生产技术先进、在世界上占有的竞争地位更优越,发挥的影响更显著。
总之,他们将蛋糕做得越大,双方的效益也就越高。比如宝山钢铁公司与上海钢铁集团强强联合也好,还是其他什么重组方式;最重要的在于将蛋糕做大。在宝钢与上钢的强强联合中,宝钢有着资金、效益、管理水平、规模等各方面的优势,上钢也有着生产技术与经验的优势。两个公司实施强强联合,充分发挥各方的优势,发掘更多更大的潜力,形成一个更大更有力的拳头,将蛋糕做得比原先两个蛋糕之和还要大。
猎鹿模型的讨论,我们的思路实际只停留在考虑整体效率最高这个角度,而没有考虑蛋糕做大之后的分配。猎鹿模型是假设猎人双方平均分配猎物。
我们不妨做这样一种假设,猎人A比猎人B狩猎的能力水平要略高一筹,但B猎人却是酋长之子,拥有较高的分配权。
可以设想,A猎人与B猎人合作猎鹿之后的分配不是两人平分成果,而是A猎人仅分到了够吃2天的梅花鹿肉,B猎人却分到了够吃18天的梅花鹿肉。
在这种情况下,整体效率虽然提高,但却不是帕累托改善,因为整体的改善反而伤害到猎人A的利益。我们假想,具有特权的猎人B会通过各种手段方法让猎人A乖乖就范。但是猎人A的狩猎热情遭到伤害,这必然会导致整体效率的下降。进一步推测,如果不是两个人进行狩猎,而是多人狩猎博弈,根据分配可以分成既得利益集团与弱势群体,这和我国的现状非常相似。
我国改革的进程在九十年代中期以前是一种帕累托改善的过程。但是随着各种复杂的不确定因素影响,贫富差距逐渐拉大,基尼指数甚至超过0。45的国际警戒线,帕累托改善的过程受到干扰。
这种情况如果继续下去,社会稳定和改革深化必将受到决定性的冲击。我们的党和政府已经关注到弱势群体的生存状态,并适时地提出建设和谐社会的改革目标,纠正了一些错误思潮,将改革的进程拉回到健康的轨道。
“囚徒困境”的深刻哲理
在博弈论中,有一个流传颇为广泛的故事,叫做“囚徒困境”(Pris…oner's Dilemma)。
话说有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人A和B,并从他们的住处搜出被害人家中丢失的财物。但是,他们都矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离审讯。
这个时候,聪明的警官找他们谈话,分别告诉他们说:“你们的偷盗罪确凿,所以可以判你们2年刑期。但是,我可以和你做个交易。如果你招了,他不招,那么你会作为证人无罪释放,他将被判10年徒刑;如果你招了,他也招了,你们都将被判5年有期徒刑;如果他招了,你不招,他无罪释放,你被判无期徒刑,终身囚禁;如果你们都不招,各判2年。”
一般读者可能会误认为,既然两个囚犯最好的结果是都不招供,两人都只被判2年,那么,两个囚犯都选择不招供就是这个博弈的最终结果。
然而,人算不如天算,“囚徒困境”之所以称为“困境”正是因为这个博弈的最终结局恰恰是最坏的结果,即两个囚犯统统招供,结果都被判有期徒刑5年。
反过来说,这也是警官的聪明之处。警官采取的游戏规则必然会让两名囚犯坦白罪行,认罪伏法。对一个博弈来说,游戏规则非常地重要,适宜的规则才能够达到目的。在我们的日常生活中莫不如此,规则制订者往往利用条件制定出有利于自身的规章制度。
读到这里,很多读者不禁会问,为什么两个人都选择了“招”,傻到接受这种最坏的结果呢?
在解释这个问题之前,笔者首先说明一下,囚徒困境和其它的博弈一样,都需要有2个前提假设:囚徒A和B两人都是自利理性的个人,即只要给出两种可选的策略,每一方将总是选择其中对他更有利的那种策略;两人无法沟通,要在不知道对方所选结果的情况下,独自进行策略选择。
囚犯“思想搏斗过程”大致如下,囚犯A的内心活动是这样:假如他招了,我不招,我就要将牢底坐穿,招了最坏坐10年,还