第12章博弈—经济学不是教你诈(2)

有人私下告诉李德裕，那些交割文书是假的，其实并没有什么金子被私吞了，只是众僧不满前主事，故而串通一气诬陷他罢了，只是这个案子人证物证俱全，要想为前主事申冤很难。李德裕说，要搞清楚是否串通一气搞诬陷，是很容易的。

李德裕把作证的僧人全部叫来，问他们是不是都看见交给前主事的金子，众僧回答说都看见了。李德裕便将他们一个个分开，然后每人给一些软黄泥，让他们捏出给前主事的金子模样来。

这些僧人事先谁也没有想到李德裕会亮出这么一手。结果可想而知，作证的僧人捏出的金子模样不可能是一个样子，而是什么样子的都有，他们串通一气作伪证诬陷前主事的事，也就水落石出了。

通过这个故事，我们不禁佩服李德裕的智慧。实际上，本故事中的李德裕已经运用了博弈论中的囚徒困境理论，达到帮助自己破案的目的。

【经济学课堂】

1950年，担任斯坦福大学客座教授的数学家图克，为了更形象地说明博弈过程，他用两个犯罪嫌疑人的故事构造了一个博弈模型，即囚徒困境模型。

警方在一宗盗窃杀人案的侦破过程中，抓到两名犯罪嫌疑人。但是，他们矢口否认曾杀过人，辩称是先发现富翁被杀，然后顺手牵羊偷了点东西。警察缺乏足够的证据指证他们所犯下的罪行，如果罪犯中至少有一人供认罪行，那么就能确认罪名成立。

于是警方将两人隔离，以防止他们串供或结成攻守同盟，分别跟他们讲清了他们的处境和面临的选择：如果他们两人中有一人认罪，则坦白者立即释放而另一人将判8年徒刑；如果两人都坦白认罪，则他们将被各判5年监禁。若两人都拒不认罪，因警察手上缺乏证据，他们以较轻的偷盗罪各判1年徒刑。

那么，这两个罪犯会怎样选择？

囚徒到底应该选择哪一项策略，才能将自己个人的刑期缩至最短呢？两名囚徒由于隔绝监禁，并不知道对方的选择；即使他们能交谈，也未必能够相信对方不会反口。

那么，在困境中任何一名理性囚徒都会做出如此选择：

若对方选择抵赖，自己选择背叛，会让自己获释，所以会选择背叛。

若对方选择背叛，自己也要背叛，才能得到较低的刑期，所以还是选择背叛。

二人面对的情况一样，所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略，因此，这场博弈中唯一可能达到自身利益最大化的行为，就是双方都背叛对方，结果二人同样服刑5年。

这就是博弈论中经典的囚徒困境，可用下表表示。

囚徒困境

囚徒乙

坦白抵赖

囚徒甲坦白 -5，-5 -8，0

抵赖 0，-8 -1，-1

囚徒困境是非零和博弈中具有代表性的例子，反映出个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质，但现实中的价格竞争、环境保护等方面，也会频繁出现类似情况。

囚徒困境假定每个参与者都是利己的，都寻求自身利益最大化，而不关心另一参与者的利益。参与者某一策略所得利益，如果在任何情况下都比其他策略要低，则此策略称为“严格劣势”，理性的参与者绝不会选择。另外，没有任何其他力量干预个人决策，参与者可完全按照自己意愿选择策略。

以全体利益而言，如果两个参与者都保持沉默，两人都只被判刑1年，总体利益更高，结果也比两人背叛对方，判刑5年的情况好。但根据以上假设，两人均为理性个人，且只追求个人利益。均衡状况会是两个囚徒都选择背叛，结果二人判决均比合作要高，总体利益较合作为低，这就是困境所在。

囚徒困境的主旨为，囚徒们虽然彼此合作，坚不吐实，可为全体带来最佳利益，但在信息不明的情况下，因为出卖同伙可为自己带来利益，所以大多数情况下会选择出卖对方。

单次发生的囚徒困境，和多次重复的囚徒困境结果会不一样。在重复的囚徒困境中，博弈被反复地进行，因而每个参与者都有机会惩罚另一个参与者前一回合的不合作行为。这时，合作可能会作为均衡的结果出现。出卖的动机可能被受到惩罚的威胁克服，从而导向一个较好的、合作的结果。

【经济学茶座】

囚徒困境反映了个人理性与集体理性之间的矛盾，对每个人而言都是理性的选择，能得到最优的结果，对于整个集体来说却是非理性的，最终导致对集体中每个人都不利的结果。

在某城市郊区有个足球场，有一次足球场举行一个重要的比赛，大家都想去看。到足球场有好几条路，其中有一条是最近的。王波选择了走最近的这条路，但发现其他人也都选择走这条路，于是这条路非常堵，因此在路上所花的时间远远多于自己的预期。好不容易来到了足球场，精彩的比赛让人大开眼界，可惜前排有人站起来，影响了自己的观看效果。王波也选择站起来，这样他能看得清楚一些，但他后排的人也都选择站起来看，最后的结果使所有人都在站着看比赛。

每个人想到的首先都是自己的利益，进行的都是有利于自己的决策，但最后的结果，往往都没有使自己获利，大家都没有从中获得好处。

王波无疑是个理性的经济人，但是当大家都是理性经济人的时候，便会不断出现囚徒困境的状况。同样的道理，如果从个体来看所做出的选择或决策无疑是理性的，但人人都基于同样的考虑做出相同的选择或决策时，就会陷入困境。

为避免囚徒困境，我们应该加强内部协作，不仅每个人要充当理性的经济人，集体也应该成为理性的经济人，只有这样，才能实现集体和内部成员利益的最大化。

纳什均衡——鹦鹉需要学的“新词”

【经济学故事】

有一位数学学家，很有天赋，很有成就，但在30岁的时候，精神分裂症困扰着他天才的大脑，他的妻子一直支持着他，最后帮助他走出了精神的泥沼。这个故事被拍成了电影，就是获得奥斯卡最佳影片奖的《美丽心灵》。人们在关注这部电影的同时，也了解了电影的原型——数学学家约翰·纳什。

约翰·纳什来自西弗吉尼亚的一个小镇，在中学、大学的时候就已经被认为在数学上是一个有天分的学生，进入美国著名学府普林斯顿高等研究院之后，纳什如鱼得水。

纳什曾经发明了一种让普林斯顿数学博士、教授们共同感兴趣的博弈游戏。他改造和发展了经典博弈论，使之能够切实地运用在经济活动中，并给现代经济学带来智慧的纳什均衡理论就是在那个时候诞生的。事实证明，约翰·纳什创立的有关理性冲突与合作的理论已经成为20世纪最具影响力的成果之一，给经济学带来了重大影响。

但是这个被精神分裂症困扰了30多年的天才被很多学术奖项和机构排斥在外，他的诺贝尔奖得来得更是艰难。约翰·纳什在20世纪80年代中期即出现在候选人的名单当中，却因为两派意见相差太大而被搁置了近10年。1994年，他终于在投票中以微弱多数通过，获得当年的诺贝尔经济学奖。

【经济学课堂】

1948年约翰·纳什进入普林斯顿大学，其研究成果是题为《非合作博弈》（1950）的博士论文。在这篇博士论文的基础上，纳什又发表《n人博弈中的均衡点》（1950）和题为《非合作博弈》（1951）两篇论文得以发表。纳什在上述论文中，介绍了合作博弈与非合作博弈的区别。他对非合作博弈最重要的贡献是阐明了包含任意人数局中人和任意偏好的一种通用解概念，也就是不限于两人零和博弈。

假设有n个局中人参与博弈，在给定其他人策略的条件下，每个局中人选择自己的最优策略（个人最优策略可能依赖于也可能不依赖于他人的策略），从而使自己利益最大化。所有参与者的最优策略构成一个策略组合，这个策略组合即是纳什均衡，且没有人有足够理由打破这种均衡。纳什均衡，从实质上说，是一种非合作博弈状态。

纳什均衡理论奠定了现代主流博弈理论和经济理论的基础，正如克瑞普斯在《博弈论和经济建模》一书的引言中所说的：“在过去的一二十年内，经济学在方法论以及语言、概念等方面，经历了一场温和的革命，非合作博弈理论已经成为范式的中心……在经济学或者与经济学原理相关的金融、会计、营销和政治科学等学科中，现在人们已经很难找到不懂纳什均衡能够‘消费’的领域。”纳什均衡理论改变了经济学的语言和表达方法。在进化博弈论方面相当有造诣的坎多利对保罗·萨缪尔森的名言“你甚至可以使一只鹦鹉变成一个训练有素的经济学家，因为它必须学习的只有两个词，那就是‘供给’和‘需求’”，曾做过一个幽默的引申，他说：“现在这只鹦鹉需要再学一个词，那就是‘纳什均衡’。”

【经济学茶座】

在经济生活中，纳什均衡其实就在我们身边。周末和节假日是超市人最多的时候，假如你怀抱着一堆东西在收银台结账，这时你找个最短的队来排，还是就近找个队排？

在这里，我们假设超市里的每个人都有一个理性的预期——尽快离开超市，

因此所有的队都会一样长，你用不着费劲地去找最短的队。购物者只要看到旁边的队人少，就会很快排进较短的队中，如此一来较短的队也变长了，一直持续到两个队人数差不多，相邻的两个队也是这样。同理，所有的队都会变得人数差不多，所以，还是就近选择最好。

如果我们从时间的角度来考虑，其结果也是一样的。我们排队除了要看每个队伍的长短，还得注意每个队的移动速度。如果一个队有10个人，但是每个人买的东西都很少，另一个队有7个人，都推着购物车，买了一堆东西，显然人们还是愿意排第一个队。等到第一个队多出第二个队足够多的时候，两个队伍的移动速度基本差不多了，你也用不着去找队排了。除此之外，收银员的工作熟练程度也会影响到队伍的移动速度，如果你不知道哪个收银员快，所以还是就近找个队排最好。

最后的结论就是排哪个队都一样，这就是经济学中所说的均衡。均衡是一种均势状态，或是一种皆大欢喜的状态，每个人都乐于接受它；抑或是一种作茧自缚的状态，每个人都被迫选择它。但是不管人喜欢不喜欢，这是我们所能做出的最好的选择。

生活中有一种有趣的现象也可用均衡原理来解释。为什么许多美女最后嫁给了丑男，如果用纳什均衡原理对此进行分析，会得到有趣的结论。纳什均衡的基本原理是，如果对方的策略是确定的，我的策略就是最优的；对方的策略是不确定的，我的策略就很难是最优的。

第12章 博弈—经济学不是教你诈(2)

第12章博弈—经济学不是教你诈(2)