按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
你做个交易。如果你招了,他不招,那么你会作为证人无罪释放,他将被判10年徒刑;如果你招了,他也招了,你们都将被判5年有期徒刑;如果他招了,你不招,他无罪释放,你被判无期徒刑,终身囚禁;如果你们都不招,各判2年。”
一般读者可能会误认为,既然两个囚犯最好的结果是都不招供,两人都只被判2年,那么,两个囚犯都选择不招供就是这个博弈的最终结果。
然而,人算不如天算,“囚徒困境”之所以称为“困境”正是因为这个博弈的最终结局恰恰是最坏的结果,即两个囚犯统统招供,结果都被判有期徒刑5年。
反过来说,这也是警官的聪明之处。警官采取的游戏规则必然会让两名囚犯坦白罪行,认罪伏法。对一个博弈来说,游戏规则非常地重要,适宜的规则才能够达到目的。在我们的日常生活中莫不如此,规则制订者往往利用条件制定出有利于自身的规章制度。
读到这里,很多读者不禁会问,为什么两个人都选择了“招”,傻到接受这种最坏的结果呢?
在解释这个问题之前,笔者首先说明一下,囚徒困境和其它的博弈一样,都需要有2个前提假设:囚徒A和B两人都是自利理性的个人,即只要给出两种可选的策略,每一方将总是选择其中对他更有利的那种策略;两人无法沟通,要在不知道对方所选结果的情况下,独自进行策略选择。
囚犯“思想搏斗过程”大致如下,囚犯A的内心活动是这样:假如他招了,我不招,我就要将牢底坐穿,招了最坏坐10年,还是招了合算;假如他不招,我也不招,只坐2年的牢(因无法串供,风险太大);如果我招,他不招,马上被释放,也是招了合算。
因此,无论囚犯B是坦白还是沉默,囚犯A采取坦白的策略对自己更为有利。
同样,以上推理也适用于囚犯B。结果两个囚徒都坦白了,都被判刑5年。
囚徒困境之所为被称为“困境”,正是在于:如果A、B二人都保持沉默,则都只被判刑2年,显然比两人都坦白的结果要好。
两名囚犯都作出招供的选择,这对他们个人来说都是最佳的,即最符合他们个体理性的选择。照博弈论的说法,这是惟一的纳什均衡点。
除了这个均衡点,A与B的任何一人单方面改变选择,他只会得到更加不经济的结果。而在其它的结果中,比如两人都不坦白的情况下,都有一人可以通过单方面改变选择,来减少自己的刑期。可是两人经过一番理性计算后,却选择了一个使自己陷入不利的结局。
其实“囚徒困境”不允许囚犯A和B进行沟通的假设,与实际生活中大部分情况的现实是有差异的。比如,在爱情博弈中,很多恋人会经常花前月下、彻夜厮守;在企业的价格战中,企业之间也会多有沟通,甚至结成价格联盟;即使是20世纪下半世纪的美苏军备竞赛中,两个超级大国也会经常进行外交交谈,及时交换信息。
因此不妨将条件放宽,允许囚犯A和B在审讯室里在一起呆上10分钟,给予他们充分的串供的机会。
很明显,双方交流的主旨就是建立攻守同盟,克服自利心理,甚至可能订立一个口头协议,要求双方都不去坦白。然后,双方再单独被提审。
我们不妨设想囚犯A的心理活动。他一定会认为,如果囚犯B遵守约定的话,则自己坦白就可获得自由;如果囚犯B告密的话,若自己不坦白就会被终生囚禁。事实上,囚犯A的策略并没有因为简单的沟通或协议而摆脱两难境地。对于囚犯B也是一样。
虽然“坦白从宽,抗拒从严”的道理人人都懂,而从博弈论的角度来看,实际上就是一个囚徒困境的应用。“囚徒困境”被看成是博弈论的代表性案例,不仅因为其简单易懂,还在于它的现象在日常生活中广泛存在。
比如,恋人们在恋爱中的海誓山盟,最终还是分手;企业之间相互沟通合作结成战略关系时是信誓旦旦,但价格战仍然会爆发;美苏两国经常会晤,甚至签订核不扩散条约,但军费一年高过一年。
囚徒困境的游戏规则,能够让狡猾的罪犯招供,得到应有的惩罚,固然不是坏事。然而,我们不妨假设囚徒A和B完全都是清白的具有理性的大大的良民,这个博弈的纳什均衡并不会因为他们的清白而改变。如果在现实生活中,审案存在对身体的残害,完全可能造成屈打成招的冤假错案。在中国历史上,这种冤案并不是什么稀少的事情。
从更深刻的意义上讲,囚徒困境模型动摇了传统社会学、经济学理论的基础,这是经济学的重大革命。
传统经济学的鼻祖亚当•;斯密在其传世经典《国民财富的性质和原因的研究》中这样描述市场机制:“当个人在追求他自己的私利时,市场的看不见的手会导致最佳经济后果。”这就是说,每个人的自利行为在“看不见的手”的指引下,追求自身利益最大化的同时也促进了社会公共利益的增长。即自利会带来互利。
传统经济学秉承了亚当•;斯密的思想。传统经济学认为:因此经济学不必担心人们参与竞争的动力,只需关注如何让每个求利者能够自由参与尽可能展开公平竞争的市场机制。只要市场机制公正,自然会增进社会福利。
但是囚徒困境的结果,恰恰表明个人理性不能通过市场导致社会福利的最优。每一个参与者可以相信市场所提供的一切条件,但无法确信其他参与者是否能与自己一样遵守市场规则。
简单地说就是,在一个集体里,有可能每个人的选择都是理性的,但对于整个集体来说其结果却不是理性的。比如大家所熟悉的股市。股市的参与人数虽然十分庞大,但实际上是只有多与空、机构与机构、散户与散户之间的双方“博弈”,有人将此称之为“零和游戏”。
股市“博弈”双方的多数也处在一种“囚徒困境”中。对于股市中博弈双方来说,当股市涨到最高点时,无论对散户,还是对机构来说,任何一方的最大利益在于“我卖,而你没卖,我获得最大盈利”,而对于双方来说最理想的状态是“大家都不卖,把股市推向一个更高点位,大家都有更多利润空间”。但实际结果却大相径庭,市场“无形之手”没起作用,却是“囚徒困境”起到了决定性的作用。
佛家讲因果报应,儒家讲究“财自道生,利缘义取”。从“囚徒困境”看来,如果一味地想算计别人,算来算去,最后却算计到自己头上来了。如果我们将“囚徒困境”故事中的无期徒刑改为死刑,那么“机关算尽太聪明,反误了卿卿性命”用在这里是再恰当不过了。
那么怎么样才能摆脱“囚徒困境”呢?
博弈双方都付出代价,失去自己不愿失去的东西,但只有这样才能共存并且摆脱囚徒困境,这有如壮士断臂,不得不为,也乐得为之。
如果说“兄弟阋于墙,共御外侮”是理想化的摆脱囚徒困境的策略,那么出卖“兄弟”以还得自己的平安,则是处于囚徒困境下本能的选择。趋利避害是人的本能,在经济行为和社会行为中这一本能都鲜明地体现着。
值得注意的是,并不是所有的“囚徒困境”都需要走出来或都需要解脱。如果所有的罪犯都走出了困境,那么将对社会产生灾难性后果,社会将充满了犯罪和混乱。
《生活中的博弈论》第一部分“囚徒困境”的破解:合作的约束
“不识庐山真面目,只缘身在此山中。”严格囚徒困境的前提条件是博弈各方不可以进行合作,也就是不能够制订有约束力的协议。但实际上,合作是文明的基础,比如兴修水利、组织国防、创建企业等都是合作而产生的,无怪乎哲学家卢梭写了本书《社会契约论》,认为契约是整个人类社会存在的前提条件之一。
如果囚徒困境只是一次性的博弈,签订协议是毫无意义的,其纳什均衡点并不会改变。可以签订协议的一个最基本的条件,就是博弈需要重复若干次,当然至少大于一次。
就恋爱博弈来看,男女双方在交往的过程中,随时都在博弈,因为相爱的过程中任何一个时点都是有可能分手的。用博弈论的术语来说,这是一种囚徒困境的重复博弈。无数爱情故事中的悲欢离合、精彩迭宕正是这个博弈模型的表现。
当然,那种素不相识一对男女,偶尔在酒吧中相遇,于是宾馆订房、春梦一场,拂晓之后就各自分道扬镳的一夜情,是理所当然的一次性囚徒困境博弈。
我们在这里要注意的是,重复博弈与我们前面所提及一般性的动态博弈是不同的。在多轮动态博弈中,参与者能够了解到博弈的每一步中其他参与者在这个参与者选择某种策略下的行动,而重复博弈的参与者无法了解到在任何一个步骤中,其它参与者的策略选择。
囚徒困境一旦从一次性博弈转变为重复博弈,情况会发生非常大的变化,博弈的结局也就是纳什均衡点可能会完全不同。
举个例子,大家都知道国外的黑手党组织严密,对待背叛者的惩罚非常残忍。一个黑手党成员告发别的黑手党成员,一定会被组织谋杀。我们假设前面的囚徒困境故事不是发生在中国,而是意大利,囚犯A和B都是黑手党成员。他们很可能宁愿被判处终生囚禁,也不愿意出狱之后被同伙干掉。
实际上,在重复型的囚徒困境中,并不是签订合作协议很困难,困难的是这个协议对博弈各方是否具有很强的约束力。一个合作契约建立的困难在于任何协议签订之后,博弈参与者都有作弊的动机。
因为至少在作弊的这一局博弈中,作弊者可以得到更大的收益。还是用爱情来打比方,常言道:“婚姻是走向爱情的坟墓”,但从博弈论的角度来看,婚姻恰恰是男女双方签订的一种协议,具有一定约束力的协议,因为一旦对方背叛婚姻,就会受到家庭的压力与社会舆论的谴责。
在博弈理论中,博弈专家已经用数学证明出,在无限次重复博弈的情况下,合作可能是稳固的。如果博弈无穷次,双方就会逐渐从互相背叛走向互相合作。
因为任何一次背叛都会招致对方在下一次博弈时的报复;而双方都采取合作态度会带来合作收益。但是在现实社会生活中又不完全这样,人总是要死的,因而人与人之间的博弈不是无限次的。当一个人知道他终将退出博弈时,他就可能不再害怕此后别人对他的报复,从而可以在博弈结束前做损害他人的事情,这就回复到有限次重复博弈的境况。
对于有限次囚徒困境博弈,美国密西根大学的罗伯特•;爱克斯罗德教授(Robert Axelrod)曾经做过一个著名的博弈论试验。这个试验的思路非常简单:任何想参加这个计算机竞赛的人都扮演“囚徒困境”模型中一个囚犯。他们把自己的策略编入计算机程序,然后这些程序会被成双成对地融入不同的组合。分完组以后,参与者就开始玩“囚徒困境”的游戏。他们每个人都要在合作与背叛之间作出选择。试验参与者连续玩上200次,于是这就更逼真地反映了日常人际关系。
试验的结果表明,囚徒困境在同样重复数十次或一百次的情况下,只要两个参与者仍然还是理性人(这可以在该试验的参加者所编程序中反映出),博弈的结果仍然是囚徒A和B都把对方招供出来。为了解释这个问题,我们不妨讨论一个博弈两次的模型。
我们首先考虑第二次博弈的情况,由于这是最后一次博弈,自然没有后面的博弈对这次博弈的影响,因此也就不必为将来打算,个人都只追求这次博弈的最大利益,于是第二次博弈的结果应该和一次囚徒困境博弈完全一样,自然是囚徒A和B都坦白,达到纳什均衡。
现在再来考虑第一次博弈的情况,博弈参与者A已经很清楚最后一次博弈时,B一定会招供,那么即使囚徒A不坦白,在下一次博弈时,B也一定会招供,这次博弈A不坦白对下一次博弈没有任何好的影响,那么作为理性人的A一定仍然选择坦白。对于B,也是一样的道理。由此可见,第一次博弈自然也和一次性囚徒困境博弈完全一样。
其实不论是两次博弈,还是3次,4次,甚至是上百次,只要是有限次数的重复囚徒困境博弈,其思路方法都是一样的。这种方法就是我们在前文中提到的倒推法(Backward induction),这在