书城心理博弈心理学
6436000000003

第3章 破解囚徒困境,走出零和游戏

背叛还是同盟,个人利益还是最大收益,如何抉择?

要谈博弈论,便不得不讲到“囚徒困境”。1950年,数学家塔克任斯坦福大学客座教授,在给一些心理学家作讲演时,他用两个囚犯的故事,将当时专家们正研究的一类博弈论问题,作了形象化的解释。从此以后,类似的博弈问题便有了一个专门名称——“囚徒困境”。

塔克的囚犯故事大概是这样讲的:

某一天,一位富翁在家中被杀,财物被盗。警方在侦案过程中,抓到两个犯罪嫌疑人——甲和乙,并从他们的住处搜出被害人家中丢失的财物。但是,他们都否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点东西。

警方虽怀疑他们作案,但却没有掌握确切的证据,于是便将两人进行隔离审讯,由地方检察官分别与甲和乙单独谈话。检察官分别对他们两个说:“由于你们的偷盗罪已有确凿的证据,所以可以判你们1年刑期。但是,根据控辩交易制度,如果你坦白并揭发同伙杀人的罪行,我将判你无罪释放,但你的同伙要被判30年。如果你拒不坦白,而被同伙检举,那么你就将被判30年,他被判无罪释放。但是,如果你们两人都坦白交代,那么,你们都要被判15年。”

那么,甲和乙该怎么办呢?他们面临着两难的选择——坦白或抵赖。显然最好的策略是双方都抵赖,结果大家都只被判1年。但是由于两人处于隔离的情况且无法串供,所以每一个人都会从利己的目的出发,选择坦白交代的最佳策略。因为自己坦白交代,而对方抵赖的话,还可以期望得到无罪释放,即使对方也坦白交代,至多也只判15年。而如果自己选择抵赖,对方选择坦白的话,那么自己就得坐30年牢,而对方却会被无罪释放,这显然是最不划算的。出于同样的动机,彼此会考虑到对方选择抵赖的可能性是很小的,所以谁也不会去冒这个险。所以,两人合理的选择是都坦白,原本对双方都有利的策略——抵赖就不会出现。

这就是经典的“囚徒困境”。以整体利益而言,如果两个参与者都合作保持沉默,总体利益更高,结果也比两人背叛对方的情况较佳。但两人均只追求自己个人利益,均衡状况会是两个囚徒都选择背叛,结果两人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。

“囚徒困境”被看成是博弈论的代表性案例,不仅因为其简单易懂,还在于它的现象在日常生活中广泛存在。

囚徒困境结局的出现,都是源于对自己利益的考虑。现代社会中,虽然许多人都明白“背叛”并不能使自己获得最大收益,却仍然要选择“背叛”,也都是利益使然。

现实中,很容易可以找到囚徒困境的例子。两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛),或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”,例如会对经济造成损坏等。

两个行业顶尖的大公司打广告战也是一种囚徒困境的例子。若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。此二公司可以有两种选择:互相达成协议,减少广告的开支;增加广告开支,设法提升广告的质量,压倒对方。若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就陷入了囚徒困境。在现实中,要互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。

囚徒困境理论告诉我们,囚徒欲想获得最大利益,唯有订立“攻守同盟”,相互抵赖,但其前提条件是:双方的交流不存在阻隔,并且双方的关系是反复博弈而非一次性的。

博弈论要点:

为什么会出现囚徒困境?主要还是源于人们对自己利益的考虑。囚徒困境是理性的人类社会活动最形象的比喻。它准确地抓住了人性的不信任和需要相互防范的一面。正因为彼此的不信任和防范,现实中生活中许多人都明白“背叛”并不能使自己获得最大收益,却仍然会选择“背叛”。

不幸陷入了囚徒困境之中,该如何应对?

囚徒困境理论告诉我们这样一个令人沮丧的道理:如果你总是想赢对方,结果可能得不偿失。因为对方也会全力反击,造成两败俱伤的局面。而且,敌对一旦形成,双方都难以全身而退。这个时候,即使双方都没有继续对抗下去的意愿,可还是只能咬牙坚持。这真是对人类理性的一大嘲弄。

那么,当陷入了囚徒困境中,我们应该怎么办呢?

博弈专家通常有以下三个建议:

首先,不要嫉妒。人们习惯于考虑零和对局,在这种情况下,一个人赢,另一个就输。为了能赢,参赛者必须在大部分时间里比对手做得更好。要认识到生活中的博弈大多数情况都是非零和的。双方可以都做得很好,也可以都做得很差。双方的合作是可能的,但并不是总能实现。

在博弈中,人们倾向于采用相对的标准,这个标准经常把对方的成功与自己的成功对立起来。这种标准导致了嫉妒,嫉妒导致企图抵消对方已经得到的优势。在囚徒困境的形式下,抵消对方优势只能通过背叛来实现,但是背叛会导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。

要求自己比对方做得好不是一个很好的标准,除非你的目的是消灭对方。在大多数情况下,这个目的是不可能实现的。因此在一个非零和的世界里,你没有必要非得比对方做得更好,特别当你要和许多不同的对手打交道时更是这样。只要你自己能做得好就没有理由去嫉妒对方的成功。这一点对于职场人士颇有警示意义。在求职的时候,很多年轻人往往希望自己表现得比同批人优秀;看到别人条件很好,还来跟自己抢这个职位会很嫉恨。在升职的关头,年轻人更是喜欢抢风头,表现出众;如果遇到优秀的竞争对手出现,就会因嫉妒而做出很多小动作破坏。事实上这种表现是不正确的。而企业也未必就只要“优秀”的人,他们更需要的是适合的人。你完全没有必要因为别人比自己厉害就起情绪。

其次,不要首先背叛。只要对方合作,你也合作,就会有好处。当然,你可以尝试更保险的方式,即先背叛直到对方合作,才开始合作。然而,这实际上是一个很有风险的策略,因为你的最初的背叛就可能引起对方的报复,并使你处于要么被占便宜要么双方背叛的两难境地。如果你惩罚对方的报复,这种反应就会一直延续下去。如果你宽恕了对方,你就得冒被欺负的风险。即使你能避免这些长远问题,对你的最初背叛的当下报复会使你希望自己从一开始就应该是善良的。

最后,不要耍小聪明。在囚徒困境的情况下人们喜欢耍小聪明,然而复杂的策略并不比简单的规则做得更好。事实上,这些策略的共同问题是,使用一些复杂的方法来推断对方,而这些推断常常是错误的。一部分问题是对方经常用试探性的背叛来表明它不会被引诱而合作,但是问题的关键是这些策略没有考虑到自身的行为会引起对方的变化。对方对你的行为是有反应的,对力将把你的行为看作你是否回报合作的信号。因此,你自己的行为将会反射到你的身上。

试图使得分最大化的策略把对方看作环境的一个不变的部分而忽略了相互的作用,不管他们在有限的假设下所做的算计是多么的聪明。如果你离开双方相互适应的简单原则,那么你的聪明是不会有好结果的。

另一个过分聪明的方式是使用“永久报复”的策略,这个策略只要对方合作它就合作,但是一旦对方背叛一次,自己就决不合作。由于这个策略的出发点是善良的,在与其他善良的策略相遇时,将会获得很好的结局,并且与那些完全随机的策略相遇时也不错。但在与那些偶尔背叛但准备一旦受惩罚就撤回的策略相比,它太快放弃了合作。“永久报复”看起来似乎很聪明,因为它为避免背叛提供了最大的激励,但是它为了自己的利益显得太严厉了。

当然,在人们许多的事务中,一个使用复杂策略的人可以向对方解释每一个选择的理由。然而,问题出现了:对方可能怀疑所提供的这些理由,在这个情况下对方将认为不值得有任何反应,对方会把一个显得不可预测的策略看作是不可改造的,结果自然还是导致背叛。

博弈论要点:

记住这3点:首先,不要嫉妒;其次,不要首先背叛;最后,不要耍小聪明。

第3条道路:在对抗和屈从之间寻找另一种解决之道

在现实博弈事例中,我们常常会遇到两难选择的囚徒困境。但是我们的选择未必就要局限在两种选择之中,因为人的思路是活的。思路打开,我们就可以找到第3条道路。

比如,面对权威,我们选择屈从则放弃了自尊,选择自尊就必然会影响到自己的利益。那么,我们可不可以在选择与放弃之间,寻求一条新的道路,达到两全其美的效果呢?答案是肯定的。

当遇到两难困境时,只要我们多一份理性的思考,就一定能找到第3条路。很多事情不是做不到,而是没想到。在对抗和屈从之间寻找另一种解决之道才是最聪明的。

某个星期天,小梁工作的公司因要对模具部门的工模进行盘点而安排了加班。小梁是盘点的主要负责人,事先就对盘点事项作了详细的安排,一上班就和同事们一起在闷热的车间里忙忙碌碌,有条不紊地进行着各项工作。不知什么时候,部门经理来到车间,看了小梁的工作步骤后断然说:“停下来,停下来!”然后又指点他应该如何如何,小梁跟经理解释说自己的方法是怎样怎样的,这也是他多年来的经验积累,并且大家都已熟悉了这种方法,工作进行得很好,经理的指示虽好,但用于模具盘点不合适。经理听后立即阴沉了脸,非常冷静地命令小梁必须按他说的要求去做。因为经理的指示里含有明显的漏洞,小梁当然觉得自己有理,就据理力争,一场激烈的争吵于是不可避免地发生了。最后,小梁对经理说,既然你那么坚持,那你就让他们按你说的去做吧,我不想这样做,说完小梁就离开了车间。

由于经理的提议在实际工作中根本行不通,最后还是遵循了小梁的方法。事情过去后,小梁还是像以前一样工作,经理也没有再提什么。这件事似乎已经渐渐被人们淡忘了,只是每逢公司有加薪或晋升的机会时,小梁总是靠边站。

当小梁又一次与经理在办公定门口碰面时,经理意味深长的眼光,才让小梁猛然醒悟到:其实这件事情还没有过去,至少对经理而言是如此。于是,小梁选择了离开。

离开公司的那天,小梁平静地跟经理谈了自己的想法和原因,然后客气地相互祝愿。但临走的一刻,他还是忍不住问经理:我一次次地晋升无望是不是因为那件事。经理先是摇了摇头,后又肯定地点了点头,有点尴尬地说:“你要记住,没有哪个上司愿意被人顶撞,哪怕是只有一次!”

其实,当初小梁的方法是正确的,最后经理还是采用了他的方法,但是在实施经理的提议之前,经理并不知道自己的方法行不通,经理只知道手下要服从命令。其实,小梁完全可以换另外一种方式去解决,比如不要当着众人的面说经理的方法行不通,让经理下不来台,也可以按经理说的去做,等到行不通时经理自然就知道自己的方法是不切实际的。但小梁却没有理智地去思考,特别是没有把工作原则与处世原则有机地结合起来,以为工作的成绩就是一切,在不恰当的场所贸然地对抗上司,并发生争吵,这是非常致命的。小梁与晋升加薪无缘也是在意料之中的事了。

生活中,有许多像小梁这样的人,为了坚持自己的观点,不惜与自己的上级公然对抗,他们只知道有这么一句话:“做人若没有一点认真的念头,便白做了,事事无成。”却不知道还有另外一句:“处世若没有一点圆滑的机智,便是个木人,处处有碍。”

在生活和工作中,认真是必需的,但是若认真过了头,没有一点圆滑机智,往往只凭一时的冲动行事,就会让自己的前途戛然而止。面对强势之人,一味地与之对抗是没有任何好处的,屈从也显得有损自己的尊严。那么,要想避免对自己产生不利的影响,又想坚持自己的原则,那就要先摆出一种屈服的姿态,在对抗与屈从之间寻找另一条出路,在给足别人面子的同时又捍卫了自己的权益。

卡耐基说:“无论对方的才智如何,都不要存在靠争论改变任何人的想法。从争论中获胜的唯一秘诀是避免争论。”真理都是不言自明的,无须过多的争论。要花费心思的是用怎样的行动来坚持真理。

博弈论要点:

要想避免对自己产生不利的影响,又想坚持自己的原则,那就要先摆出一种屈服的姿态,在对抗与屈从之间寻找另一条出路,在给足别人面子的同时又捍卫了自己的权益。

即使竞争双方是理性的、自私的,合作依然可以出现

在囚徒困境中,双方相互抵赖是最有利的选择,这似乎宣判了合作可能性的死刑。但是在现实生活中,人们的相互合作从古至今却从未停止过。这又是为什么呢?这是因为人们在现实中的博弈,与在游戏模型中是不同的。在生活中,人们打交道通常不是一次性的,往往需要多次和同一群对象博弈。因此,在逻辑上得到完美证明的囚徒困境,并不能成为人们普遍遵循的选择。

在生活中,人与人的博弈不是孤立的,你可能一直都把另一个人踩在脚下,但是这也可能导致你们都生活得很糟,那么,把别人踩在脚下就不是什么明智的选择了。囚徒困境其实也还有其他行之有效的策略可供人们选择。

为了验证这一点,罗伯特·艾克斯劳德在其著作《合作的演进》一书中描述过一个计算机的竞赛:

选择14种策略在200次囚徒困境的博弈中与对方争斗。计算机中的竞赛结果表明,合作是可以出现的,即使竞争双方是理性的、自私的。这个胜出的策略就是“针锋相对”策略,这一策略着眼于合作,从合作出发,而不是相互背叛。几轮博弈之后,各方的策略就会明了起来,为对方所知晓和了解。

可见,在现实生活中,当我们陷入囚徒困境时,并不一定要拼得两败俱伤才能维护自己的利益。

比如,自2000年“美的”宣布进入微波炉行业后,“格兰仕”即针锋相对地以20亿元的大手笔进入空调和电冰箱行业,这两大家电企业的争斗陷入了僵局。如何看待双方目前已进入白热化的角逐,运用博弈论的原理分析认为:“格兰仕”与“美的”的博弈将分两个阶段进行,当双方在经过了激烈的、非合作的、针锋相对的竞争,将陷入两败俱伤的境地之后,双方有可能或有必要串谋起来瓜分市场,在竞争中实现合作双赢。

在现实生活当中,信任与合作很少达到如此两难的境地,无论在自然界还是在人类社会,合作都是一种随处可见的现象。

比如中东石油输出国组织(简称OPEC)的成立,本身就是要限制各石油生产国的产量,以保持石油价格,以便获取利润,是合作的产物。OPEC之所以能够成立,各组织成员国之间之所以能够合作,是因为囚徒困境如果是一次性博弈的话,基于个人利益最大化,得到纳什均衡解,但如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。

不论是经典的历史案例,还是著名的现代博弈,其结果都表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护这个声誉。

博弈论要点:

面对“囚徒困境”,如果你认为今后将难以与对方相遇,如果你不太关心自己未来的利益,那么,你可以选择背叛,而不用担心未来的后果。但如果你认为未来是重要的,你还关心自己未来的利益,你就要考虑以合作的方式来破解这种困境。

哈丁公用地悲剧:一个多方参与的囚徒困境

在囚徒困境中,两个囚徒都选择背叛,双方获利最大;相反,其中一个人的背叛会使双方的利益受损。而现实的博弈参与者往往很多,在多方参与的囚徒困境中,集体性背叛有时候会带来很可怕的悲剧。

为了证明这一点,美国一位教授让自己班上的学生进行一个博弈游戏,这是一个“事先设计好”的博弈。游戏规则如下:

假设每一个学生都拥有一家企业,现在他必须决定自己应该1:生产高质量商品来帮助维持较高价格,还是2:生产假货来通过别人所失换取自己所得。根据愿意选择1的学生总数,将收入分给每个学生。

假设全体27名学生一开始都打算选择1,那么他们各得1.08美元。假设有一个人打算偷偷改变决定,选择2,那么,选择1的学生就有26名,各得1.04美元,比原来少了4美分,但那个改变主意的学生就能得到1.54美元,比原来多了46美分。

实际上,不管最初选择1的学生总数是多少,结果都是一样,选择2是一个优势策略。每一个改选2的学生都会多得46美分,同时会使他的26个同学分别少得4美分,结果全班收入会少得58美分。等到全体学生一致选择自私的策略,尽可能使自己的收益达到最大,他们将各得50美分。反过来,假如他们联合起来,协同行动,不惜将个人的收益减至最小,他们将各得1.08美元。

演练这个博弈的时候,起初不允许集体讨论,后来允许一点讨论,以便达成“合谋”,结果愿意合作而选择1的学生总数从3到14不等。在最后的一次带有协议的博弈里,选择1的学生总数是4,全体学生的总收益是15.82美元,比全体学生成功合作可以得到的收益少了13.34美元。

如果你仅仅把这个游戏当成一个游戏或者一种博弈模型就大错特错了,这个游戏在现实中也很有代表性。加勒特·詹姆斯·哈丁提出的著名的公用品悲剧就是一例。

说的是一个古老的英国村庄,有一片向一切牧民开放的牧场。当牧民养牛的数量超过草地承受的能力时,过度放牧就会导致草地逐渐耗尽。尽管草地的毁灭最终会使每个人的利益都受到损害,但每个人计算的仅仅是自己增加一头牛的收益会高出自己所付的成本,因而会尽可能地增加牧牛的数量。这使得每个人在追求自身利益最大化的过程中,实际上在共同损害着包括自己在内的每个人的最大利益。最终结果可能是所有的牧民的牛均饿死。

这就是公共资源的悲剧,也称为“哈丁公用地悲剧”。用一句话概括就是:“公用品悲剧是指凡是属于最多数人的公共财产常常是最少受人照顾的事物。”再例如渔业,公海中的鱼是属于公共的,而在本身不滥捕其他人也滥捕的思想下,渔民会没有节制地大捞特捞,结果海洋生态破坏,渔民的生计也受影响(共同背叛的结果)。

哈丁在另外一篇重要而具影响力的文章中提到,不加限制的个人选择可能给社会带来灾难。

在一个信奉公民自由的社会,每一个人都在无限制地追求自己的最大利益,从而毁灭将成为大家不能逃脱的命运。

哈丁按照这一思路讨论了人口爆炸、污染、过度捕捞和不可再生资源的消耗等问题。他的结论是,世界各地的人民必须意识到,有必要限制个人做出这些选择的自由,接受某种“一致赞成的共同约束”。

对公用地悲剧的防止有两种办法:一是在制度上,二是在道德约束上。

所谓制度的方法,即建立中心文化的权力机构,无论这种机构是公共的还是私人的——私人对公用地的拥有,即处置便是在使用权利。

例如,在河水污染问题上,每个企业都会为了使自身收益最大化而无限制地向公共河流中排放污水,每个个人也会因为只考虑自己的方便而向河水中乱扔污物。对此,公共管理机构或是可以通过制度创新,将河水的清污费用“内化”为企业的成本,或是通过制裁措施增加个人污染河水的成本。没有这样的公共管理措施,公共河流就会像前面所说的公用牧场一样被人们共同破坏掉。

不同情况下,公用地悲剧可能成为一个多人囚徒困境(每一个人都养了太多的牛)或一个超出负荷的问题(太多人都想做畜牧者)。

经济学家最喜欢的解决方案是确立产权,这也是15,16世纪在英格兰真实出现的事情:公有土地被围起来,落入当地贵族或地主手里。主人可以收取放牧费,使其租金收人最大化,而减少对土地的使用。此举改善了整体经济效率,却同时也改变了收入的分配:放牧费使主人更富有,使牧人更贫穷。

这一规定在其他场合并不适用。公海的产权很难在缺少一个国际政府的前提下确定和执行,控制携带污染物的空气从一个国家飘向另一个国家也是一个难题。基于同样的理由,捕鲸和酸雨问题都要借助更直接的控制才能处理,但建立一个必要的国际协议却很不容易。

正如哈丁提到的那样,人口是一个更加艰巨的难题。决定要生几个孩子,似乎是做父母的个人自由,但是如果人们都倾向于多生小孩,就会造成人口爆炸的危机。现在很多人认识到:生育不是一种自由,而是有限的权利。

可见,公共品问题一定要有人协调和管理,就一个国家来说,最重要的公共品是国防、教育、基础设施和其他政府部门。政府责无旁贷,要用好来自纳税人的钱,把文化教育、社会保障、基础设施和国防公安等事情做好。社区要有专人协调管理,把身边看起来很琐碎但是弄不好有损工作和生活环境的事情做好。只有如此,才会走出“哈丁公用地”的悲剧。

博弈论要点:

在面对共同利益的时候,最好能够制订一个公正、公开、公平的规则。这个规则的达成越早越好。双方都来遵守这个规则,在大家都认可的方式下,合理使用公共资源,这样对大家都好。

大部分人合作,小部分人背叛,如何约束?

在上面我们谈了多人博弈的时候集体背叛的下场,而另外一种情况下——在集体博弈中,大部分人都在合作,而部分人选择了背叛,又该如何呢?

囚徒困境是个人理性冲突与集体理性冲突的经典情形。所谓一粒老鼠屎坏了一锅粥,如果个人理性战胜了集体理性,那么对于个人来说是沾光的事情,而对于集体来说就是一件很倒霉的事情。滥竽充数的故事就是一个很好的案例。

齐国的国君齐宣王爱好音乐,尤其喜欢听吹竽,手下有300个善于吹竽的乐师。齐宣王喜欢热闹,爱摆排场,总想在人前显示做国君的威严,所以每次听吹竽的时候,总是叫这300个人在一起合奏给他听。

南郭先生听说了齐宣王的这个癖好,觉得有机可乘,是个赚钱的好机会,就跑到齐宣王那里去,吹嘘自己说:“大王啊,我是个有名的乐师,听过我吹竽的人没有不被感动的,就是鸟兽听了也会翩翩起舞,花草听了也会合着节拍颤动,我愿把我的绝技献给大王。”齐宣王听得高兴,不加考察,很爽快地收下了他,把他也编进那支300人的吹竽队中。

这以后,南郭先生就随那300人一块儿合奏给齐宣王听,和大家一样享受着优厚的待遇,心里得意极了。其实南郭先生撒了个弥天大谎,他压根儿就不会吹竽。每逢演奏的时候,南郭先生就捧着竽混在队伍中,人家摇晃身体,他也摇晃身体;人家摆头,他也摆头,脸上装出一副动情忘我的样子,看上去和别人一样吹奏得挺投入,还真瞧不出什么破绽来。

南郭先生就这样靠着蒙骗混过了一天又一天,不劳而获地白拿薪水。不会吹竽的南郭先生混在300人的乐队中装模作样地凑数,竟然可以得到赏赐,全在于自己的“聪明”。南郭先生敢于做假除了自身的胆识之外,关键还在于机制中的漏洞。他了解在当时的机制下,他的做法是不太容易“穿帮”的。而机制一变——继承王位的齐愍王喜欢听独奏,南郭先生发现老办法行不通时,他就溜之大吉了。

要避免南郭先生钻孔子,一方面约束机制要健全,另一方面依赖于每一位参与者的监督。

博弈论要点:

如果个人理性战胜了集体理性,那么对于个人来说是沾光的事情,而对于集体来说就是一件很倒霉的事情。