友情提示：如果本网页打开太慢或显示不完整，请尝试鼠标右键“刷新”本网页！阅读过程发现任何错误请告诉我们，谢谢！！报告错误

博弈论的诡计(1)-第6章

按键盘上方向键 ← 或 → 可快速上下翻页，按键盘上的 Enter 键可回到本书目录页，按键盘上方向键 ↑ 可回到本页顶部！
————未阅读完？加入书签已便下次继续阅读！

个无法摆脱的噩梦吗？
　　　　答案是否定的。资深的博弈论专家罗伯特…奥曼在1959年指出，人与人
的长期交往是避免短期冲突、走向协作的重要机制。拥有以色列和美国双重
国籍的奥曼于1955年获美国麻省理工学院数学博士，当时正是博弈论方兴来
艾之际，在以后50年的时间里．他一直在寻找避免囚徒困境式的纳什均衡的
机制，实际上是从理论上探索协调人们利益冲突，增进社会福利的道路。
　　　　在任何博奔中，表现最好的策略直接取决于对方采用的策略．特别是取
决于这个策略为发展双方合作留出多大的余地。这个原则的基础是下一步对
于当前一步的影响足够大，即未来是重要的。总的来说，如果你认为今后将
难以与对方相遇，或者你不太美心自己未来的利益，那么，你现在最好背叛．
而不用担心未来的后果。
　　　　而现实生活中反复交往的人际关系，则是一种“不定次数的重复博弈”。
奥曼通过自己的推导十分严密地证明，在较长的视野内，人与人交往关系的
壤
涵譬拦
重复所造成的“低头不见抬头见”的关系，可以使自私的主体之间走向合作。
　　　　这可以解释许多商业行为。一次性的买卖往往发生在双方以后不再有买
卖机会的时候，特点是尽量谋取暴利并且带欺骗性。而靠“熟客”、“回头客”
便是通过薄利行为使得双方能继续合作下去。
　　　　事实上，重复博弈也更逼真地反映了日常人际关系。在重复博弈中，合作
契约的长期性能够纠正人们短期行为的冲动。这在日常生活里是具有普遍性的。
如何破解迟到困局
　　　　我们已经知道，由于一次性博弈的大量存在．引发了很多不合作的行为。
而且，即便是在重复博弈中，合作的一方在遭到对方背叛之后，往往没有机
会也没有还手之力去进行报复。比如，资本积累阶段的违约行为，国家之间
的核威慑。在这些情况下，要使交易能够进行，并且防止不合作行为，必须
设置严格的惩罚背叛行为的机制。
　　　　有人曾经在网上提供了这样一个集体活动迟到的问题。
　　　　王老师是某班的班主任，他经常组织本班同学参加集体活动，比如郊游。
但在组织的过程中。他遇到了一个棘手的问题。在一次集体活动中，王老师
通知全班同学早上8：oo到校门口集合。结果有几个同学拖拖拉拉．导致大
家8：15才出发，从而白白耽误了一刻钟。
　　　　在此后的集体活动中，王老师改变了策略，虽然真实的集合时间仍是8：00，
但是他通知大家7：45集合，结果最晚的几个同学也在8：00赶到．从而准
时出发。王老师对自己的策略根满意。
　　　　但是好景不长。时间久了．同学们都发现了王老师通知的集合时间故意
提前，甚至可以根据王老师的通知猜测出真实的集合时间。因此．每当王老
师通知7：45集合时，大家仍然按照真实的集合时间．也就是8：00来做安
排，从而导致几个同学在B：00后才赶来。而那些准时即7：45到达集合地
点的同学都开始抱怨，进而也变得不那么守时了。
　　　　王老师的目标是通知合适的集合时间。从而达到准时出发且避免同学因
为等待而有所抱怨。那么应当制定怎样的策略。才能使活动准时开始并使大
126
重复博弈；一夜慵与地老天荒
家都满意呢？
　　　　在这个问题中．存在着老师与学生、学生与学生之间的博弈。实际上也
是一种多人的囚徒困境。因为每个学生都知道，其他学生的占优策略是选择
到达集合地点的时间，既不能太早，以免白白浪费等待的时间；又不能太晚，
以免承担耽误大家时间的责任。
　　　　要破解这个困境，老师有两个策略选择：一是只要过了集合的时间，就
不再等下去，让迟到的同学独自承担责任。这种责任和相应的惩罚对同学会造
成很大的损失，他们就不会再迟到了。二是如果迟到的学生比较多。那么等
某个数量的学生到齐以后马上出发，而让迟到时间过长的那些同学承担责任。
　　　　一般说来，博弈中双方合作时得益最大，但若一方不遵守台作约定．必
定是另一方合作者吃亏。所以需要引入惩罚机制：谁违约，就要处罚他，使
他不敢违约。一位玩家之所以会与另外一位合作，只是因为他知道，如果他
今天被骗．明天还能对欺骗实施惩罚。奥曼先生把这一洞察结论称之为“无
名氏定理”。
　　　　只有对迟到的学生进行惩罚，迟到问题才能解决，一句话，也就是实行
一份带剑的契约。从囚徒困境中我们可以悟出一条真理：合作是有利的“利
己策略”。但它必须符合以下定律：按照你希望别人对你的方式来对别人，但
只有他们也按同样方式行事才行。
带剑的契约才有效
　　　　在每一个鼓励合作的方案里，通常都会包古某种惩罚作弊者的机制。
　　　　一个坦白且供出合作伙伴的囚徒可能遭到对方朋友的报复。若是知道外
面会有什么报应等着自己，尽快逃脱牢狱之灾的前景也就不会显得那么诱人
了。人人都知道，警察会威胁毒品贩子说如果不坦白就要释放他们。这种威
胁的作用在于，一旦他们被释放，卖毒品给他们的人就会认定他们一定是招
供了而加以报复。
　　　　在最初博弈之上增加惩罚机制的做法，其目的就是为了减少作弊的动机。
在博奔的结构里还存在其他类型的惩罚。一般而言，这种机制生效的原因在
27　l
女☆∞j｝舻
于博弈反复进行，这一回合作弊所得将导致其他回合所失。
　　　　归纳起来，在一次性的博弈当中没有办法达成互惠合作。只有在一种持
续的关系中才能够体现惩罚的力度．并因此成为督促合作的”术棒”。合作破
裂自然就会付出代价．这一代价会以日后损失的形式出现。假如这个代价足
够大，作弊就会受到遏制，合作就会继续。事实上，法国哲学家卢梭早就指
出了这一点，他曾经有一本《社会契约论》，认为契约是整个人类社会存在的
前提条件之一。
　　　　前面已经分析过，如果囚徒困境只是一次性的博弈，那么签订协议是毫
无意义的，其纳什均衡点并不会改变。可以签订协议的一个最基本的条件，
就是博奔需要重复若干次，至少大于一次。
　　　　重复博弈与一般性的动态博弈是不同的。多轮动态博弈中，参与者能够
了解到博弈的每一步中其他参与者的在自己选择某种策略下的行动，而重复
博奔的参与者无法了解到在任何一步中，其他参与者的策略选择。
　　　　在重复型的囚徒困境中．签订合作协议并不困难，困难的是协议对博弈
各方是否具有很强的约束力。任何协议签订之后，博弈参与者都有作弊的动
机，因为至少在作弊的这一轮博弈中，可以得到更大的收益。
　　　　霍布斯对合作协议的观点是：“不带剑的契约不过是一纸空文。它毫无力
量去保障一个人的安全。”这就是说，没有权威的协议并不能导致民主．而是
导致无政府状态。
　　　　囚徒困境扩展为多人博弈时，暴露了一个更广泛的问题——“社会悖论”，
或“资源悖论”。人类共有的资源是有限的．当每个人都试图从有限的资源中
多拿一点儿时，就产生了局部利益与整体利益的冲突。人口问题、资源危机、
交通阻塞，都可以在社会悖论中得以解释。在这些问题中，关键是制定游戏
规则来控制每个人的行为。
　　　　另外，学者爱克斯罗德所著的《合作的进化》一书暗含着一个重要的假
定，即个体之间的博弈是完全无差异的。但对局者之间绝对的平等是不可能
达到的，因而某些博弈对一方来说是典型的高成本、低回报：一方面，对局
者在实际能力上存在不对称．双方互相背叛时，可能不是各得1分，而是强
者得5分，弱者得0分，这样，弱者的报复就毫无意义；另一方面．即使对
I　z日
重复博弈：一夜情与地老天荒
局双方确实旗鼓相当，但某一方可能怀有赌徒心理，认定自己更强大，采取
背叛的策略能占便宜。爱克斯罗德的分析忽视了这种情形，而这种事实或心
理上的不平等恰恰在社会上引发了大量零和与负和博弈。
　　　　在这种情况下，应通过法制手段。以法律的惩罚代替个人之间的“一报
还一报”，才能规范合作行为。事实上．从博弈论的角度看，法律就是通过第
三方实施的行为规范，其功能是或者通过改变当事人的选择空间改变博弈的
结果，或者不改变博弈本身而改变人们的信念或对他人的行为预期，从而改
变博弈的结果。
用道德来保证均衡
　　　　带剑的契约对于保证合作关系是有效的，但是在更多的情况下，我们根
本找不到，或者不值得用“剑”也就是法律来保证合作。那么在这时，有没
有其他办法来达到均衡呢？答案是肯定的。如果法律是保证人与人关系之间
的唯一武器，那么博弈策略也就没有什么价值了。作家吴思在《潜规则》中
曾经讲了这样一个故事，可以作为一个引子。这个故事来自《明史》，是一个
监察官员的故事。
　　　　崇桢元年（1628年），朱由检刚刚当上皇帝，发出了“文官不爱钱”的号
召。户科给事中韩一良对这种号召颇不以为然．就写了份上疏，说道：如今
何处不是用钱之地？哪位官员不是爱钱之人？本来就是靠钱弄到的官位．怎
么能不花钱偿还昵？…··我这两个月辞却了别人进我的出书费用五百两银
子，我交往少尚且如此，其余的可以推想了。伏请陛下严加惩处，逮捕处治
那些做得过分的家伙。崇祯读了韩一良的上疏。立刻召见群臣．让韩一良当
众念他写的这篇东西。读罢，崇祯对大臣们说：“一良忠诚耿直，可以当佥都
御史。”
　　　　这时，吏部尚书王永光请求皇帝，让韩一良点出具体人来．究竟谁做得
过分．又是谁送他银子。韩一良吞吞吐吐，显出一副不愿意告发别人的样子。
于是崇桢让他密奏。等了五天，韩一良谁也没有告发。崇祯再次把韩一良和
一些大臣召来，当面追问。然而韩一良就是不肯点名。崇桢让韩一良点出人
。9　l
壤
莲‰｛｝：掣——一
名，本来是想如他所请的那样严加惩处，而韩一良最后竞推说风闻有人要送。
祟祯训斥韩一良前后矛盾，撤了他的职。
　　　　韩一良宁可叫皇帝撤掉自己的官职，断送了自己的前程．甚至顶着被治
罪的风险，硬是不肯告发那些向他送礼行贿的人，他背后必定有强大的支撑
力量。这是一种什么力量々难道只是怕得罪人？作为给事中，检举起诉和得
罪人乃是他的分内事。因此，恐怕还是一种外在规则的压力，或者说外在规
则在其内心中形成的“道德”在起作用，使其坚决不肯背叛向他行贿的人。
　　　　上面这个历史故事讽刺性地告诉我们：在现实环境中，确实存在着一些
道德因素，可以化解个人理性与群体理性的矛盾，维系整个社会的稳定。
　　　　有一群猴子被美在笼子里，从笼子上方垂下一条绳子，绳子末端拴着一
个香蕉，上端连着一个机关，机关可以开启水源。猴子们发现了香蕉。纷纷
跳上去够这个香蕉．当猴子够到香蕉时，相连的绳子带动了机关，于是一盆
水倒了下来，尽管够到香蕉的猴子屹到了香蕉，但大多数猴子被淋湿了。
　　　　这个过程重复着，猴子们发现．吃到香蕉的猴子是少数，而其余的大多
数猴子都被淋湿。于是，每当有猴子去取香蕉，就有其他的猴子主动地去撕
咬那个猴子。久而久之，猴子们产生了默契，再也没有猴子敢去取香蕉了。
　　　　在这个故事里，猴子问产生了“道德”。猴子们认为取香蕉的后果对其
他猴子不利，因而取香蕉是“不道德的”，它们便会主动地惩罚“不道德的”
猴子。
　　　　与法律一样，道德也是对某些不合作行动的惩罚机制。这种机制的出现
使得人类从囚徒困境中走出来。道德感自然地使得人们对不道德的或不正义
的行为谴责或者对不道德的人采取不合作，从而使得不道德的人遭受损失。
这样，社会上不道德的行为就会受到抑制。因此只要社会形成了道德或不道
德、正义或非正义的观念，就自动对行为产生了调节作用。
　　　　但是在日常生活的交际中，单纯依靠对手的道德自律来达成合作是不
保险的。针对这个问题．我们可以通过对道德因素的考虑，对博弈策略进
行相应的调整．把交际变成长期的、多边的，从而形成诚实守信的动力与
压力。
l　5。
壤
莲‰｛｝：掣——一
名，本来是想如他所请的那样严加惩处，而

返回目录上一页下一页回到顶部赞（0）踩（0）

未阅读完？加入书签已便下次继续阅读！

温馨提示：温看小说的同时发表评论，说出自己的看法和其它小伙伴们分享也不错哦！发表书评还可以获得积分和经验奖励，认真写原创书评被采纳为精评可以获得大量金币、积分和经验奖励哦！