书城投资零和游戏
5503500000008

第8章 一个关于困境的游戏(2)

这个游戏的规则是这样的:在“囚犯困境”的游戏中,有两个对策者,他们可以有两个选择:合作或背叛,每个人都必须在不知道对方选择的情况下,做出自己的选择。

艾克斯罗德邀请了来自经济界、心理学、社会学、政治学和数学领域的14位专家参与这一游戏。

在计算机竞赛中,每个参加者每一步都要写出个体选择合作或不合作的程序,这个程序在做选择时可以利用对局的历史情况来分析,从而决定自己的策略。并且,这个游戏的参与者也多是熟悉“囚犯困境”的人,所以参与者的程序必将在一个高水平的环境中运行。

艾克斯罗德的游戏规则

游戏双方都在不知对方将如何选择的情况下,选择合作或背叛。这些选择放在一起就产生了四种可能的结果即:

合作,合作;

合作,背叛;

背叛,合作;

背叛,背叛。

在这个游戏中,如果双方选择合作,双方都能得到较好的结果,即“对双方合作的奖励”为3分,3也可以代表参赛者得到的奖金数。如果一方合作而另一方背叛,那么,背叛者因为讨了对方的便宜,所以得到“对背叛的投机”5分。而合作者因为被对方占了便宜,只能得0分。如果双方都背叛,那么双方既没有占到便宜又似乎没有失去什么,所以都得到1分。

让我们以下面的图示来理清一下思路。

下面的图中甲和乙各表示参赛的一个人(程序),他们的选择是完全无差异的。

如果甲、乙都选择合作,则两人各得3分;如果一方选合作,一方选背叛(不合作),则选合作的得O分,选背叛(不合作)的得5分;如果甲、乙都选背叛(不合作),双方各得1分。

就这种情形看来,对双方来说最好的结果是选合作,总体得6分。如果一方选合作,一方选不合作,总体得5分。如果两人都选不合作,总体得2分。

竞赛是循环进行的,即每一个参赛程序都与其他程序相遇。按照事先宣布的竞赛规则,每一个参赛程序还要与它自己以及一个“随机”程序相遇。这个随机程序,以相等的概率随机地选择“合作”或“背叛”。

艾克斯罗德要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两对局,以找出什么样的策略得分最高。

游戏的胜出者

14个程序再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作)彼此开始了第一轮游戏。竞赛的一个显著的特点是它允许不同学科的人以相同的形式和语言进行相互作用。绝大部分程序是来自那些已经在对策论或在“囚犯困境”方面发表过论文的人。

虽然对个体而言,最大的利益是5分,但如果对局在多人间进行,而且次数未知,对策者就会意识到,当持续地采取合作并达成默契时,对策者就能持续地得3分,这是一个相对理想的结果;但如果持续地不合作的话,每个人就永远得1分。因此,就整个参赛程序而言,不可能得到高分。

这样,合作的动机就显现出来。

在验证“囚犯困境”时人们可选择的策略及其有效程度的游戏中,参赛者提出了各种程序,根据程序的本意大致可分为“善良的”、“邪恶的”和“随意的”三类,竞赛的结果也许有些出人意料:“善良”策略,即“以合作为主”的策略大获全胜,而“邪恶”策略即“以占便宜为主”的策略成绩不佳。

最后,由多伦多大学阿纳托尔·拉帕波特教授提交的“一报还一报”策略赢得了竞赛。它是所有提交程序中最简单,结果却是最好的!

“一报还一报”这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。

假设某人的策略是,第一次合作,以后只要对方不合作一次,他就永不合作。

对这种对策者,当然合作下去是上策。假如有的人不管对方采取什么策略,他总是合作,那么总是对他采取不合作的策略得分最多。对于总是不合作的人,也只能采取不合作的策略。

由于一个特定策略的有效性不仅取决于它自己的特性,而且取决于它要相遇的其他策略的特性。因此,单一竞赛的结果是不能最后说明问题的。当第一轮的比赛结束后,艾克斯罗德把第一次的结果公开发表,并决定邀请更多的人再做一次游戏。第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞赛。第二轮比赛比第一轮有了一个更高的起点,因为每个人(程序)都可以从第一次比赛中获取成功的经验,因此我们可以期望它的结果对于指导如何在囚犯困境中有效地选择是更有价值的。

可结果,胜出的仍然是“一报还一报”。

“一报还一报”是一个很有力的竞争手段,这是计算机竞赛设计程序的绝大部分人都知道的事实,因此,他们中的许多人都使用了“一报还一报”的原则并且试图改进它。不过,令人惊奇的是这些提交的复杂程序没有一个能够表现得像原本的“一报还一报”一样好。

第二轮竞赛不仅验证了第一轮比赛分析中得出的结论和发现,还使参赛者从第一轮竞赛的经验中吸取了自己的教训,但不同的人得到的教训不同。第二轮竞赛中特别具有启发性的正是基于不同教训的参赛者相互作用的方式。

成功策略的原则

“囚犯困境”完全不同于一般游戏,如国际象棋。一个象棋大师可以有把握地假定对手将走让他最头疼的一步,“非赢即输”的零和思维是这类游戏的基础。如果你假定对方总是走你最担忧的那一步,那么,你就会认为其他人总是不合作,这就会使你也不合作,最后招来无休止的惩罚。

然而,与下围棋不同,在囚犯困境中假定对方一心要赢你是不可靠的,因为在这个游戏中游戏者的利益并不是完全冲突的。双方只有通过合作才能得到相对高的得分。

虽然,独立于对方策略之外的最好策略并不存在,但还是有一些适应性强的原则值得我们借鉴。

在这里,我们可以归纳一下在“囚犯困境”游戏中成功的程序,都具备哪些特点。

第一,善良者的得分较不善良者普遍靠前,即从不首先背叛;

第二,对于对方的背叛行为一定要报复,不能总是合作,即“可激怒的”,一味善良而没有可激怒的程序得不到高分;

第三,对对方偶尔的违约要宽容对待,不能人家一次背叛,你就没完没了地报复,以后人家只要改为合作,你也要合作,即具有“宽容性”。

还有一个特点是:耍小聪明,使程序复杂化的程序得不到高分。如与对方合作数次后,却突然违约一次,以求能得到一次高分是行不通的。

这些原则,对于下面诸多问题的回答,提供了可参考的答案。

在与他人的持续交往中,人什么时候应该合作,什么时候只需为自己着想?

一个人会继续帮助他的一位从来不思回报的朋友吗?

一个公司会给另外一个濒于破产的公司及时的支持吗?

一个国家应如何面对另一个国家的敌意行为,应遵循怎样的行为模式才能赢得其他国家的合作?