按键盘上方向键 ← 或 → 可快速上下翻页,按键盘上的 Enter 键可回到本书目录页,按键盘上方向键 ↑ 可回到本页顶部!
————未阅读完?加入书签已便下次继续阅读!
个无法摆脱的噩梦吗?
答案是否定的。资深的博弈论专家罗伯特…奥曼在1959年指出,人与人
的长期交往是避免短期冲突、走向协作的重要机制。拥有以色列和美国双重
国籍的奥曼于1955年获美国麻省理工学院数学博士,当时正是博弈论方兴来
艾之际,在以后50年的时间里.他一直在寻找避免囚徒困境式的纳什均衡的
机制,实际上是从理论上探索协调人们利益冲突,增进社会福利的道路。
在任何博奔中,表现最好的策略直接取决于对方采用的策略.特别是取
决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步对
于当前一步的影响足够大,即未来是重要的。总的来说,如果你认为今后将
难以与对方相遇,或者你不太美心自己未来的利益,那么,你现在最好背叛.
而不用担心未来的后果。
而现实生活中反复交往的人际关系,则是一种“不定次数的重复博弈”。
奥曼通过自己的推导十分严密地证明,在较长的视野内,人与人交往关系的
壤
涵譬拦
重复所造成的“低头不见抬头见”的关系,可以使自私的主体之间走向合作。
这可以解释许多商业行为。一次性的买卖往往发生在双方以后不再有买
卖机会的时候,特点是尽量谋取暴利并且带欺骗性。而靠“熟客”、“回头客”
便是通过薄利行为使得双方能继续合作下去。
事实上,重复博弈也更逼真地反映了日常人际关系。在重复博弈中,合作
契约的长期性能够纠正人们短期行为的冲动。这在日常生活里是具有普遍性的。
如何破解迟到困局
我们已经知道,由于一次性博弈的大量存在.引发了很多不合作的行为。
而且,即便是在重复博弈中,合作的一方在遭到对方背叛之后,往往没有机
会也没有还手之力去进行报复。比如,资本积累阶段的违约行为,国家之间
的核威慑。在这些情况下,要使交易能够进行,并且防止不合作行为,必须
设置严格的惩罚背叛行为的机制。
有人曾经在网上提供了这样一个集体活动迟到的问题。
王老师是某班的班主任,他经常组织本班同学参加集体活动,比如郊游。
但在组织的过程中。他遇到了一个棘手的问题。在一次集体活动中,王老师
通知全班同学早上8:oo到校门口集合。结果有几个同学拖拖拉拉.导致大
家8:15才出发,从而白白耽误了一刻钟。
在此后的集体活动中,王老师改变了策略,虽然真实的集合时间仍是8:00,
但是他通知大家7:45集合,结果最晚的几个同学也在8:00赶到.从而准
时出发。王老师对自己的策略根满意。
但是好景不长。时间久了.同学们都发现了王老师通知的集合时间故意
提前,甚至可以根据王老师的通知猜测出真实的集合时间。因此.每当王老
师通知7:45集合时,大家仍然按照真实的集合时间.也就是8:00来做安
排,从而导致几个同学在B:00后才赶来。而那些准时即7:45到达集合地
点的同学都开始抱怨,进而也变得不那么守时了。
王老师的目标是通知合适的集合时间。从而达到准时出发且避免同学因
为等待而有所抱怨。那么应当制定怎样的策略。才能使活动准时开始并使大
126
重复博弈;一夜慵与地老天荒
家都满意呢?
在这个问题中.存在着老师与学生、学生与学生之间的博弈。实际上也
是一种多人的囚徒困境。因为每个学生都知道,其他学生的占优策略是选择
到达集合地点的时间,既不能太早,以免白白浪费等待的时间;又不能太晚,
以免承担耽误大家时间的责任。
要破解这个困境,老师有两个策略选择:一是只要过了集合的时间,就
不再等下去,让迟到的同学独自承担责任。这种责任和相应的惩罚对同学会造
成很大的损失,他们就不会再迟到了。二是如果迟到的学生比较多。那么等
某个数量的学生到齐以后马上出发,而让迟到时间过长的那些同学承担责任。
一般说来,博弈中双方合作时得益最大,但若一方不遵守台作约定.必
定是另一方合作者吃亏。所以需要引入惩罚机制:谁违约,就要处罚他,使
他不敢违约。一位玩家之所以会与另外一位合作,只是因为他知道,如果他
今天被骗.明天还能对欺骗实施惩罚。奥曼先生把这一洞察结论称之为“无
名氏定理”。
只有对迟到的学生进行惩罚,迟到问题才能解决,一句话,也就是实行
一份带剑的契约。从囚徒困境中我们可以悟出一条真理:合作是有利的“利
己策略”。但它必须符合以下定律:按照你希望别人对你的方式来对别人,但
只有他们也按同样方式行事才行。
带剑的契约才有效
在每一个鼓励合作的方案里,通常都会包古某种惩罚作弊者的机制。
一个坦白且供出合作伙伴的囚徒可能遭到对方朋友的报复。若是知道外
面会有什么报应等着自己,尽快逃脱牢狱之灾的前景也就不会显得那么诱人
了。人人都知道,警察会威胁毒品贩子说如果不坦白就要释放他们。这种威
胁的作用在于,一旦他们被释放,卖毒品给他们的人就会认定他们一定是招
供了而加以报复。
在最初博弈之上增加惩罚机制的做法,其目的就是为了减少作弊的动机。
在博奔的结构里还存在其他类型的惩罚。一般而言,这种机制生效的原因在
27 l
女☆∞j}舻
于博弈反复进行,这一回合作弊所得将导致其他回合所失。
归纳起来,在一次性的博弈当中没有办法达成互惠合作。只有在一种持
续的关系中才能够体现惩罚的力度.并因此成为督促合作的”术棒”。合作破
裂自然就会付出代价.这一代价会以日后损失的形式出现。假如这个代价足
够大,作弊就会受到遏制,合作就会继续。事实上,法国哲学家卢梭早就指
出了这一点,他曾经有一本《社会契约论》,认为契约是整个人类社会存在的
前提条件之一。
前面已经分析过,如果囚徒困境只是一次性的博弈,那么签订协议是毫
无意义的,其纳什均衡点并不会改变。可以签订协议的一个最基本的条件,
就是博奔需要重复若干次,至少大于一次。
重复博弈与一般性的动态博弈是不同的。多轮动态博弈中,参与者能够
了解到博弈的每一步中其他参与者的在自己选择某种策略下的行动,而重复
博奔的参与者无法了解到在任何一步中,其他参与者的策略选择。
在重复型的囚徒困境中.签订合作协议并不困难,困难的是协议对博弈
各方是否具有很强的约束力。任何协议签订之后,博弈参与者都有作弊的动
机,因为至少在作弊的这一轮博弈中,可以得到更大的收益。
霍布斯对合作协议的观点是:“不带剑的契约不过是一纸空文。它毫无力
量去保障一个人的安全。”这就是说,没有权威的协议并不能导致民主.而是
导致无政府状态。
囚徒困境扩展为多人博弈时,暴露了一个更广泛的问题——“社会悖论”,
或“资源悖论”。人类共有的资源是有限的.当每个人都试图从有限的资源中
多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、
交通阻塞,都可以在社会悖论中得以解释。在这些问题中,关键是制定游戏
规则来控制每个人的行为。
另外,学者爱克斯罗德所著的《合作的进化》一书暗含着一个重要的假
定,即个体之间的博弈是完全无差异的。但对局者之间绝对的平等是不可能
达到的,因而某些博弈对一方来说是典型的高成本、低回报:一方面,对局
者在实际能力上存在不对称.双方互相背叛时,可能不是各得1分,而是强
者得5分,弱者得0分,这样,弱者的报复就毫无意义;另一方面.即使对
I z日
重复博弈:一夜情与地老天荒
局双方确实旗鼓相当,但某一方可能怀有赌徒心理,认定自己更强大,采取
背叛的策略能占便宜。爱克斯罗德的分析忽视了这种情形,而这种事实或心
理上的不平等恰恰在社会上引发了大量零和与负和博弈。
在这种情况下,应通过法制手段。以法律的惩罚代替个人之间的“一报
还一报”,才能规范合作行为。事实上.从博弈论的角度看,法律就是通过第
三方实施的行为规范,其功能是或者通过改变当事人的选择空间改变博弈的
结果,或者不改变博弈本身而改变人们的信念或对他人的行为预期,从而改
变博弈的结果。
用道德来保证均衡
带剑的契约对于保证合作关系是有效的,但是在更多的情况下,我们根
本找不到,或者不值得用“剑”也就是法律来保证合作。那么在这时,有没
有其他办法来达到均衡呢?答案是肯定的。如果法律是保证人与人关系之间
的唯一武器,那么博弈策略也就没有什么价值了。作家吴思在《潜规则》中
曾经讲了这样一个故事,可以作为一个引子。这个故事来自《明史》,是一个
监察官员的故事。
崇桢元年(1628年),朱由检刚刚当上皇帝,发出了“文官不爱钱”的号
召。户科给事中韩一良对这种号召颇不以为然.就写了份上疏,说道:如今
何处不是用钱之地?哪位官员不是爱钱之人?本来就是靠钱弄到的官位.怎
么能不花钱偿还昵?…··我这两个月辞却了别人进我的出书费用五百两银
子,我交往少尚且如此,其余的可以推想了。伏请陛下严加惩处,逮捕处治
那些做得过分的家伙。崇祯读了韩一良的上疏。立刻召见群臣.让韩一良当
众念他写的这篇东西。读罢,崇祯对大臣们说:“一良忠诚耿直,可以当佥都
御史。”
这时,吏部尚书王永光请求皇帝,让韩一良点出具体人来.究竟谁做得
过分.又是谁送他银子。韩一良吞吞吐吐,显出一副不愿意告发别人的样子。
于是崇桢让他密奏。等了五天,韩一良谁也没有告发。崇祯再次把韩一良和
一些大臣召来,当面追问。然而韩一良就是不肯点名。崇桢让韩一良点出人
。9 l
壤
莲‰{}:掣——一
名,本来是想如他所请的那样严加惩处,而韩一良最后竞推说风闻有人要送。
祟祯训斥韩一良前后矛盾,撤了他的职。
韩一良宁可叫皇帝撤掉自己的官职,断送了自己的前程.甚至顶着被治
罪的风险,硬是不肯告发那些向他送礼行贿的人,他背后必定有强大的支撑
力量。这是一种什么力量々难道只是怕得罪人?作为给事中,检举起诉和得
罪人乃是他的分内事。因此,恐怕还是一种外在规则的压力,或者说外在规
则在其内心中形成的“道德”在起作用,使其坚决不肯背叛向他行贿的人。
上面这个历史故事讽刺性地告诉我们:在现实环境中,确实存在着一些
道德因素,可以化解个人理性与群体理性的矛盾,维系整个社会的稳定。
有一群猴子被美在笼子里,从笼子上方垂下一条绳子,绳子末端拴着一
个香蕉,上端连着一个机关,机关可以开启水源。猴子们发现了香蕉。纷纷
跳上去够这个香蕉.当猴子够到香蕉时,相连的绳子带动了机关,于是一盆
水倒了下来,尽管够到香蕉的猴子屹到了香蕉,但大多数猴子被淋湿了。
这个过程重复着,猴子们发现.吃到香蕉的猴子是少数,而其余的大多
数猴子都被淋湿。于是,每当有猴子去取香蕉,就有其他的猴子主动地去撕
咬那个猴子。久而久之,猴子们产生了默契,再也没有猴子敢去取香蕉了。
在这个故事里,猴子问产生了“道德”。猴子们认为取香蕉的后果对其
他猴子不利,因而取香蕉是“不道德的”,它们便会主动地惩罚“不道德的”
猴子。
与法律一样,道德也是对某些不合作行动的惩罚机制。这种机制的出现
使得人类从囚徒困境中走出来。道德感自然地使得人们对不道德的或不正义
的行为谴责或者对不道德的人采取不合作,从而使得不道德的人遭受损失。
这样,社会上不道德的行为就会受到抑制。因此只要社会形成了道德或不道
德、正义或非正义的观念,就自动对行为产生了调节作用。
但是在日常生活的交际中,单纯依靠对手的道德自律来达成合作是不
保险的。针对这个问题.我们可以通过对道德因素的考虑,对博弈策略进
行相应的调整.把交际变成长期的、多边的,从而形成诚实守信的动力与
压力。
l 5。
壤
莲‰{}:掣——一
名,本来是想如他所请的那样严加惩处,而