博弈树与逆向归纳法1

动态博弈与逆向归纳法

假如欺负他人可以获得快乐，那你会欺负他人吗？大多数人的回答是不会，原因正如他们所指出的，欺负他人会担心他人的报复，这抵消了从欺负他人的行为中所能得到的快乐。这个答案至少表明，你之所以现在没有欺负他人，并不因为不想欺负他人，而是因为你知道欺负他人会在将来给自己造成麻烦。同样，当我们面临一些博弈对局的时候，我们应如何采取现在的行动，常常取决于每个行动在将来会产生什么后果，或者说在将来别人将如何反应。

在前面各章内容中，博弈是静态的——或者说是同时行动的。而现实中的博弈常常是动态的、依序行动的，这就要求我们必须考虑人们在将来对我们的行动反应。分析序贯行动博弈的一个重要思路就是：向前展望，向后推理(looking forward and reasoning backward)，即面向未来，思考现在，站在未来的立场来确定现在的最优行动。本章我们将通过一些例子来说明这一分析思路，其中有些例子很有趣，也很有挑战性。

§5-1 逆向归纳法

1、美中军事政治博弈

我们通过一个简单的例子来说明序贯博弈的（离散策略的）扩展式表达和逆向归纳法求解方法。这个例子可以称做美中军事政治博弈，或者叫“毛泽东的对外军事政治战略”。

故事模型在我国解放初期，美国一直试图对我国实施打击。此时，我国必须对美国采取应对之策。就我国对美国可以采取的行动而言，无非是回击或不回击。用更符合毛泽东的话来说，美国可以“犯我”或“不犯我”，而我们可以“犯人”或“不犯人”。

由此我们可以刻画出一个动态博弈：

●博弈方：美国、中国；

●行动空间：美国可选择的行动是“犯我”或“不犯我”；中国的选择是“犯人”或“不犯人”；

●行动顺序：美国先行动；中国观察到美国的行动后再选择自己的行动； ●赢利：我们这样假设赢利状况（数字是虚拟的）；

●如果美国“犯我”，中国“犯人”，恶战再所难免，则美国亏损2，中国

亏损2；

●如果美国“犯我”，中国“不犯人”，那么中国沦为美国的附庸，丧失国家主权，则美国获得2，中国亏损4；

●如果美国“不犯我”，中国“犯人”，那么就是中国挑起战事，美国正好有借口纠合国际力量打击中国，则美国得3，中国亏损5；

●如果美国“不犯我”，中国“不犯人”，各自和平地发展经济，则美国得1，中国得1。

2、博弈树

对于上述动态博弈，我们可以用博弈树(game tree)表达如下（图5-1）：

（－2，－2）（2,-4）（3,-5）（1,1）

图5-1 美中军事政治博弈

图5-1的博弈树是这样解读的：美国先选择“犯我”或“不犯我”，然后中国观察美国的选择后选择“犯人”或“不犯人”；最右边的括号内数字是各种情况下双方的赢利状况，前一个数字代表第一个行动人（美国）的赢利，第二个数字代表第二个行动人（中国）的赢利。依此类推，如果有更多的参与人序贯行动，则赢利的排列顺序与行动顺序一致。

3、逆向归纳法

究竟什么是图5-1博弈的均衡呢？在完美信息动态博弈中，我们要找的均衡实际上是一条路径，即从第一个行动人决策结点出发，一直到某一个终点之间的路径。所谓均衡路径就是在每一个决策阶段，没有人会偏离这条路径。这条路径所代表的策略均衡被称做子博弈完美均衡。

下面我们介绍如何用逆向归纳法来求解博弈的均衡。逆向归纳的步骤是这样的：

● 首先，从最后阶段行动的参与人决策开始考虑。在图5-1的博弈中，最后行动的是中国，因此我们先考虑中国怎么决策。在考虑中国的决策时，我们假

定美国已经选了“犯我”或“不犯我”；

◆ 如果美国选择了“犯我”，在图5-1中可发现，中国选择“犯人”会

得到-2，选择“不犯人”会得到-4；因此中国必然选择“犯人”——

我们就在中国“犯人”的分枝上画上一个短短的横线标记；

◆ 如果美国选择了“不犯我”，从图5-1中可发现，中国选择“犯人”

会得到-5，选择“不犯人”会得到1，因此中国必然选择“不犯人”

——我们就在中国“不犯人”的分枝上画上一个短短的横线标记。

● 然后，考虑次后阶段行动的人（例子中只有两个阶段，因此实际上就是第一阶段行动的人）——美国。美国决策时会考虑中国的反应，而现在它已预见到中国将选择的行动就是两条划了双横线的分枝。所以，它很容易推出自己面临的情况是：

◆ 若选择“犯我。，则必然导致中国“犯人”，则美国得到-2；

◆ 若选择“不犯我”，则中国必选择“不犯人”，则美国得到1；

◆ 结果美国宁愿选择“不犯我”。照规矩，我们在美国“不犯我”的一个分枝上画上横线。

● 如果存在一个路径，其每个分枝都画上了横线，那么这条路径就是均衡路径。可发现，在图5-1的例子中，均衡路径将是美国选择“不犯我”，而中国选择“不犯人”。

因此，美中博弈的子博弈完美均衡结果是：美国不侵犯中国，而中国也不侵犯美国。

逆向归纳法对于求解子博弈完美均衡之所以适用，其原因就在于它的解过程很好地体现了子博弈完美均衡的定义：一个策略组合只有在其路．既满足是整个博弈的均衡又满足该路径上每一个子博弈的均衡时候，‘才是子博弈完美均衡。

§5-2 逆向归纳法的应用

掌握了逆向归纳方法，现在我们就可以来看一些序贯行动博弈的例子。这些例子既充满趣味，也是对大家使用逆向归纳技术的一种训练，同时也可能是一种智力上的测试。

1、私奔博弈

故事模型在我国汉代，有个青年作家叫司马相如，有个年轻的寡妇叫卓文君。卓文君的父亲喜欢附庸风雅，经常请一些所谓的才子到家里吟诗作赋，其中就包括司马相如。日情，并打算结婚。但是，这门亲事遭到文君父亲的反对。父亲对文君

说，你若跟司马结婚，那么就将脱离父女关系。

现在，卓文君应该怎样选择？是屈从父亲，还是跟心上人结婚？

我们可用如下一个博弈（图5-3）来表示卓文君与她父亲的博弈。

（2, －1）

（－1,1）（0,-2）

图5-3 私奔博弈

图5-3的博弈中，卓文君先选择“与司马断绝关系”或者“结婚”。若与司马断绝关系，则她失去一个心爱的人，得到-1的赢利（她父亲则得到赢利1，因为他终于如愿以偿让女儿没能跟司马结婚）；若选择结婚，则由文君的父亲做出反应。他可以选择真的断绝父女关系——这种情况下，文君得到0（因为她虽然跟爱人结婚得到1，但是却因此失去了父亲得到-1，总计得到0），父亲得到是-2（因为看到文君与司马结婚心中不快得到-1，又失去了一个女儿其所得再增加-1）；当然，既然生米煮成了熟饭，父亲可以默认——此时文君既得到爱人又没有失去父亲故获得赢利2，而父亲心中不快得到-1，但毕竟没有失去女儿。

使用逆向归纳法不难得到，第二阶段父亲将选择默认（因为默认的赢利为-1，而断绝父女关系的赢利为-2）；给定第二阶段父亲会默认，第一阶段文君将选择结婚（结婚赢利为2，与司马断绝关系赢利为—1）。所以，私奔博弈的均衡结果是，文君选择结婚，而文君的父亲选择默认。

历史上的故事正是如此。卓文君不顾父亲的反对和司马相如私奔。两个人在成都靠开酒吧为生。文君的父亲不忍女儿受苦，最后还是接纳了他们的婚姻。

私奔博弈刻画了一个很重要的道理，那就是有些时候威胁并不可怕，因为那些威胁仅仅是威胁而已。就像父母亲反对儿女婚姻时常常摆出一副要断绝父子（女）关系的样子，但一旦木已成舟，他们也只好默认，并不会真的跟儿女断绝关系。学习了博弈论的人，更容易看出这些威胁是不可置信的。

2、海盗分赃

再来看一个逆向归纳法的经典例子，其原型来自I ．Stewart 在《科学美国人》杂志上的一篇文章《凶残海盗的逻辑》。这个例子曾经被作为微软公司招募员工的面试题目，你也可以尝试着可以在几分钟之内求解出正确答案。故事模型话说有5个海盗ABCDE 抢来了100枚金币，大家决定分赃的方式是：依次由海盗ABCD 提出一种分配方案，如果同意这种方案的人达到半数，那么该提议就通过并付诸实施；若同意这种方案的人未达半数，则提议不能通过且提议人将被扔进大海喂鲨鱼，然后由接下来的海盗继续重复提议过程。假设每个海盗都绝顶聪明，也不相互合作，并且每个海盗都想尽可能多得到金币，那么，第一个提议的海盗将怎样提议既可以使得提议被通过又可以最大限度得到金币呢？

我曾好几次在学生中做过调查，如果他们就是第一个海盗会提出怎么分？答案五花八门，但是大多数是表示平均分（每人20颗）——这可能是现实中的情况，公平观念在博弈中发挥着作用。但是标准博弈论是研究人们完全理性的情况下极端复杂的策略互动后果，这里的平均分配并不符合标准博弈论的逻辑。

那么答案究竟是什么呢？使用边向归纳法可以求解如下：

★首先，考虑只剩下最后的海盗E ，显然他会分给自己100枚并赞成自己。 ★再回溯到只剩下海盗D 和海盗E 的决策，海盗D 可以分给自己100枚并赞成自己；海盗E 被分得0枚，即使反对也无用。

★回到海盗C 。海盗C 可以分给海盗E 1枚金币得到海盗E 的同意；分给自己99枚，自己也同意；分给海盗D 0枚，海盗D 反对但无用。

★回到海盗B 。海盗B 可以分给海盗D 1枚得到海盗D 同意；分给自己99枚，自己也同意；海盗C 、E 各分得0枚，他们会反对但反对没有用。

★回到海盗A 。他可以分给海盗C 、E 各1枚，获得海盗C 、E 的同意；分给自己98，自己也同意；分给海盗B 、D 各0枚，他们会反对但反对不起作用。

因此，这个海盗分赃问题的答案是(98，0，1，0，1) ：海盗A 提出分给自己98枚，分给海盗B 、D 各O ，分给C 、E 各1枚，该提议会被通过。因为海盗A 、

C 、E 会投赞成票。我们可以把这个逆向决策的过程用如下矩阵表达出来（如图5-4，其中画下划线的数字表示海盗对该方案投了赞成票，未加下划线对应于反对票）。

如果你是海盗A ，你会这样提方案吗？

对于上述海盗分赃问题，我们还可以演化出不同的版本。比如说：(1)如果要求包括提议海盗在内的所有海盗过半数（超过1/2）同意才能使提议通过，那么海盗A 应该怎么提方案？ (2)如果要求提议海盗之外的海盗过半数同意才能

通过，那么海盗A 又该怎么提方案？ (3)或者海盗的数目增加到10个、100个，海盗A 又怎么提方案？大家可以把这个当做练习题来做一做。

分配给各位海盗的金币数目

分配者

海盗A B C D E

海盗 A 98 0 1 0 1

图5-4 海盗分赃逆向推理过程（全部海盗半数同意即可通过）

答案：变种问题(1)中，海盗A 提出的分配方案是(97，0，1，2，O) 或(97，0，1，0，2) ；变种问题(2)中，海盗A 提出的分配方案应是(97，0，1，1，1) ；变种问题(3)中，大家可尝试逐渐增加海盗的数量，将会发现答案是有规律可循的。

§5-3 理性的局限与非理性行为

逆向归纳方法是一个非常美妙的思想，但是它对人们的理性要求可能会太高。然而，也可能正因为人们的理性程度是不一样的，才有了博弈的高下之分。关于参与人理性不对称下的博弈理论研究，至今仍是博弈论研究的一个努力方向。按照博弈论大家鲁宾斯坦( A.Rubinstein) 的说法：“对不同参与人的能力及形势洞察力的不对称性建模在将来的研究中将是一个吸引人的挑战。”

1、序贯理性

所谓序贯理性，通俗地说就是每个参与人在其每一个行动时点上都将重新优化自己的选择，并且会把自己将来会重新优化其选择这一点也纳入当前的优化决策当中。换句话说，一个具备序贯理性的参与人很清楚自己在每一个需要做出决定的时刻都需要重新对已有的决策进行优化，而且在做这种优化的时候必须把未来需要重新优化的这一事实考虑在现有的优化决策当中。

显然，序贯理性下将不会有“后悔出现”——因为满足序贯理性所形成的路径，无论从后向前看，还是从前向后看，都将是一条最优的道路。那么，只凭我们在日常生活的决策中有那么多的“悔不该当初”，我们就知道其实人们常常难以达到序贯理性的要求。

为什么人们常常难以达到序贯理性的要求呢？至少有两个原因：一是人们的算计能力是有限的；二是人们的理性本身也是有限的（比如感情用事、冲动行事、冒险倾向等）。

2、算计能力与策略技巧

从臥理论上来说，有限的离散策略，只要其可能的结果状态是有限的，我们就可以通过逆向归纳方法，来求解出均衡路径上的策略。按照这样的一个想法，我们在下下象棋、围棋等时可能就分不出高下。因为，每个人都通过逆向归纳法已经知道如何应对每一步棋，最后大家可能永远只会下成平手。

但现实中，下棋的胜负是很常见的结果。而且，我们明显发现更有经验的棋手显然更能“老谋深算”，一个新手常常目光短浅、漏洞百出，老手下赢新手是最普遍的结果。为什么会这样呢？下棋之所以能分出胜负，其实就在于对手之间的序贯理性是不一样的，他们对于局势的洞察力是不一样的。有经验的老手，眼光显然比一个新手强上不止几百倍。

读者可能会问，下象棋不过32颗棋子，为什么人们的算计能力会如此有限呢？这里实际上涉及到序贯博弈中策略的数量是成几何级数增加的。当你下象棋的时候，32颗棋子，第一阶段你就至少有32种行动选择（其实还不止，因为某些棋子可行的步骤不止一种），那么，哪怕是只要求进行几个回合的厮杀，其策略组合都远远超越了人脑通过逆向归纳来进行算计的能力。

存在众多可选行动和行动阶段的博弈中，策略组合的数量之巨大、情况之复杂似乎会给人一种悲观的结论：既然如此，我们还研究博弈论干什么呢？对此我想说的是，这并不悲观，反而有趣。人与人之间的理性程度的差异造就了胜负之分，才使得棋艺对抗如此令人着迷，难道不是这样吗？而且新老棋手的棋艺高低，不正是说明了理性程度的提升策略技巧的改善是可以通过学习和训练来达到的吗？难道这不正是一个应该学习和研究博弈论的最好理由吗？此外，还有一个更为乐观的事实是，由于计算机技术的发展，过去许多以人脑难以完成算计并分析的博弈，现在已经可以通过电脑辅助计算来完成。可以想像，随着人类计算技术的发展，人类的算计能力也会迅速得到发展，并日益可以分析更为复杂的博弈。

3、操纵理性的博弈

现实的博弈与标准博弈理论存在差距的另外一个事实是，现实中博弈的参与人很清楚各个参与人的理性程度和对现实的洞察力是有差异的，从而他们完全有可能策略性地使用“理性”。比如，如下的一个博弈（图5-5）：

图5-5的博弈中，大家使用逆向归纳法很容易发现，第三阶段，甲将选择“左”（获得100）；但是在第二阶段乙宁愿选“上”（获得1）；回到博弈之初，甲将选择“前”直接结束博弈（获得2）。这是标准的逆向归纳解。

（）

图5-5 非理性的博弈

但是在现实中，这个均衡结果会出现吗？很可能不会，尤其是当两个参与人对对方的理性有所质疑的时候。比如说，甲可能会想：我如果选“后”，那么即便乙选择了“上”，我也得到1个单位，只比我选“前”少得到1个；但是，如果他认为我是个傻瓜，而要冒一次险选择“下”（如果甲真是傻瓜，“下”对乙是有诱惑力的，地选择“右”而使得乙得到100），那么我就赚了。这样，不管是由于侥幸心理，或是真的使用装傻策略，甲可能真的会选“后”。

同样，乙看到甲选了“后”，也许乙很高兴地认为甲是个傻瓜（完全理性的人不会这么选的嘛），那么乙的侥幸心理也被诱导出来了，既然他是傻瓜，那我为什么不冒险选下呢——这样，要么我只比选“上”少得到1个单位，但也有可能多得到100-1 = 99个单位呢。于是乙可能真的会选“下”。

正因为乙可能有上述的心理和行为，所以甲在第一阶段就更有可能会选择“后”。只要乙敢于冒险选“下”，那么甲就可以毫不费力地得到100单位收入了。当然，甲选择“后”是有风险的，因为如果乙的理性程度很高，没有侥幸心理，或者能够洞悉甲的企图，那么甲就会“偷鸡不成反而蚀把米”。

在现实中，这样的利用对手理性不足的博弈还少见吗？一点也不！有些博弈高手，就是抓住对手的侥幸心理（完全理性的人是不会有侥幸心理的）故意卖一个破绽，从而诱对方上钩，大获其利。

故事模型譬如元朝末年朱元璋灭陈友谅就是一个典型的博弈战例。其时，各地起义军已混战多年，最后只剩下了朱元璋、陈友谅等几支大队伍。陈友谅为了吞掉朱元璋，勾结朝廷太尉张士诚，向朱元璋占据的建康（今江苏南京）进攻。但陈友谅与朱元璋打过多年交道，深知朱元璋足智多谋，手下兵多将广，故小心翼翼，步步为营，慢慢推进。消息传到建康，朱元璋思谋破敌之策，觉得想灭陈友谅，必须诱敌深入，然后围歼之。这样一步步地打消耗战，久了必会腹背受敌，被陈友谅和张士诚两面夹击就危险了。但如何引陈友谅孤军深入呢？朱元璋想起了黄盖降曹的赤壁之战，觉得可以仿效办理，以诱惑敌人。于是朱找到过去与陈友谅

交情甚厚的属将康茂才，问他是否有把握诱陈友谅来攻。康茂才说：“陈友谅胸无大志，缺乏战略眼光，急功近利，可以诱其前来。”于是他修书一封，说自己在元璋手下干得很不痛快，出力不少，不得重用，今将军前来进攻，愿投降。并说：自己负责防守建康西边的大桥，是水路攻建康的必经之路，若将军到来，愿献桥投降。陈友谅虽然担心有诈，但认为自己力量雄厚，带大兵前来，即使有诈也不用太担心。结果，他一来就未能回去，被朱元璋所灭。在这个例子中，朱元璋等人就是利用了陈友谅的侥幸心理，故事中的关键词“可以诱其前来”和“愿献桥投降”，深刻地说明了朱元璋如何用尽心计试图利用对方的侥幸心理。

当然，这种试图利用对方理性不足而操纵对方的谋略也可能被对方识破而不能得逞。通常，这种策略性运用“理性”的失败与低估对方的理性有关。三国演义 “东吴招亲”的故事中，孙权和周瑜就是低估了诸葛亮的理性，结果被诸葛亮将计就计，赔了夫人又折兵。

总之，“理性”本身可能就是现实中人们进行博弈时的一个可操纵策略变量。但是，博弈理论在这一方面并没有多大的进展。下一节我们还会谈到一些非理性博弈，比如非理性的报复——我们会发现“非理性”有时也会给参与人带来好处。可能正因为如此，物竞天择——大自然才让人类在演化中保留了非理性吧。

§5-4 威胁、承诺与报复

§5-4－1威胁和承诺

在博弈中，威胁、承诺与报复，都是惯用的伎俩，这些内容也是本节要探讨的主题。大家会发现，博弈论思维的确有助于我们洞悉某些局势中的不可置信的威胁、不可置信的承诺等。

1、威胁与空洞威胁

在生活中，人们惯用威胁和恐吓来达到自己的目的。但是，理性的参与者会发现某些博弈中威胁是不可置信的，即塞尔顿（Selton ，1994年经济学诺贝尔奖得主）所谓的“空洞威胁”(empty threat) 。威胁不可置信的一个重要原因是：将威胁所声称的策略付诸实践对于威胁者本人来说比实施非威胁声称的策略更不利。既然如此，我们就没有理由相信威胁者会选其威胁所声称的策略。

比如有一个垄断市场，唯一的垄断者独占市场每年可获得100万的利润。现在有一个新的企业准备进入这个市场，如果垄断者对进入者采取打击政策，那么进入者就将每年亏损10万元，同时垄断者的利润也下降为30万元；如果垄断者对进入者实行默认政策，那么进入者和垄断者将各自得50万元利润。现在，

为了防止进入者进入，在位的垄断企业宣称：如果进入者进入，那么它就会选择打击政策。

但是，如果我们把这个市场进入博弈的博弈树画出来，再用逆向归纳方法求出均衡路径，就会发现这是一个“空洞威胁”。

（－10,30）

（0,100）（50,50）

图5-6 市场进入博弈中的空洞威胁

我们会发现均衡路径是进入者进入，而在位者默认。在位者的威胁将是不可置信的，因为给定进入者真的进入了，在位者选择默认而不是打击将更符合其利益，所以在位者宣称要实施打击，也只是说说而已。

实际上，在很多时候，威胁都是不可置信的，尤其是口头的威胁。比如在

第4章的“私奔博弈”中，卓文君的父亲以脱离父女关系威胁文君与司马相如分手也是一个空洞威胁的例子。在家庭里，经常出现不可置信的威胁。因为家庭的成员彼此利害相关，惩罚一个家庭成员也会给惩罚者带来负效用，结果就使得惩罚常常并不是很可信。

在公司里，员工常常会策略性地提出加薪，而威胁老板加薪的一个常见版本就是“如果不给我加薪，那我就将离职”。问题是，老板会不会理踩员工的威胁呢？一个显然的事实是，老板可不像小孩那样缺乏理性。如果员工并没有其他的去处，老板就不会理睬员工的加薪要求。只有老板相信员工会离去，并且他觉得多花点钱留住员工是值得的时候，他才会给员工加薪。

在师生之间，有时也会存在不可置信的威胁。教师为了让学生更加努力学习，有时会故意夸大命题和阅卷的严格程度。但是，学生很清楚的问题是教师不可能让大面积的学生不及格，所以他们就不会理会试题的难度。如果他们预计95%的学生会及格，那么他们就只需要让自己进入那95%就行了，并不会担心绝对分数是否会达到60分。如果教师真的想通过考试压力来迫使学生努力学习，那么他应当公布更低的相对及格标准，比如无论考多少分，都只有70%的同学才算作及格。但是，几乎没有老师会这样公布，因为如果他真的公布了这样一个过低的相对及格率，那么学生会向校方投诉教师强行规定了不合理的及格率。

2、通过承诺行动使威胁变得可信

为了使威胁变得可信，人们可以采取承诺行动。承诺行动的基本思想是：

通过限制自己的某些策略选择，从而使得其选择特定策略的宣称或意图变得可信。或者说，承诺行动是局中人通过减少自己在博弈中的可选行动来迫使对手选择自己所希望的行动。其中的道理在于：既然对方的最优反应行动依赖于我的行动，那么限制我自己的某些行动实际上也就限制了对方采取某些行动。如果某些承诺行动只是增加了选择某些行动的成本，而不是使该行动完全不可能被选取，则被称为不完全承诺。

虽然语言也可以作为一种承诺，但我们这里讲的承诺行动更注重要落实在“行动”上。“行胜于言”是博弈论的基本教条。一个人嘴巴上可以说得天花乱坠，而理性的人却只看他的行动。

§5-4－2现实中的威胁与承诺

1、爱的承诺

故事模型有一位小伙子在给心爱的姑娘的信中写道：“爱你爱得如此之深，以至愿为你赴汤蹈火；我是那么地想见到你，任凭艰难险阻也挡不住我的脚步。本周六如不下雨，我一定来找你！”

这个女孩子能相信这个男青年的誓言吗？“我会爱你一生一世”这句话，太容易说了。因此，这样的承诺，难以置信。

那么，如何才可以让你对她的爱是可以置信的？为了表明你的心迹，你需要付出代价。而且代价越沉重，才能表明你越爱她。不过，这代价并不一定是金钱，因为金钱对于某些人来说也是廉价的。一个百万富翁为一个女孩子一掷千金，为另一个女孩子则不惜生意代价付出大量时间来陪伴她，你说他更爱哪一个女孩子呢？

在高度情感化的领域，人们的博弈依然充满了理性。为什么婚前要送昂贵的彩礼？为什么要举行高档的婚宴？过去，人们习惯于批评这是讲排场，面子风光。而在博弈论看来，这是一种承诺行动。昂贵的彩礼和高档的婚宴一方面表明了愿意为对方做出牺牲，另一方面实际上也是向外界传递了他们把这段感情看得有多重的信号，而排斥了潜在的婚姻竞争者，从而限制了自己的选择以承诺对爱情的忠贞。或者可以这样理解，男青年高额下聘，实际上使得其财富减少不可能再去找另外一个婚姻对象，这就是典型的承诺行动了。可能有些人会不赞同这样的看法，但是如果我们把婚姻看做是婚姻市场上交易的产品，那么下聘礼与其他产品市场交易中的交纳订金或抵押物在本质上其实并无不同，都是承诺而已。

同样的道理，为什么恋人会乐于把彼此介绍给自己的父母亲朋？这也是一种

承诺。一个人将恋人介绍给自己的父母亲朋时，实际上就对自己再选择其他的婚恋对象做出了限制。这样的一种放弃潜在婚恋机会的做法是向对方做出了一种感情上的承诺。的确，如果你谈了很久的恋人一直拒绝让你进入他的家人和朋友圈子，这只能说明他的感情仍处在游弋不定之中。

2、商业中的承诺

商业界的承诺更多。刚才讲到的订金、抵押物都是常见的承诺行动。先发制人使市场达到饱和也是一种承诺行动。为了防止竞争者的进入，在位的企业可以通过过度的投资和生产来占据市场，尽管这会使得其利润下降，但是比竞争者进入的状况要好，那么企业就可能采取提前使市场饱和的策略来阻止竞争者进入。

生产耐用消费品的企业常常推出最惠条款，这也是一种承诺。耐用消费品因其使用时限较长，生产耐用品的企业会经常被“降价预期”所困扰：如果消费者预期企业将降价，他们便会等待，结果，企业只能降价。比如国内汽车行业，入世之后大家认为汽车必然降价，结果就持币待购，汽车就真的只有降价（当然，这里只是说汽车价格受到了价格预期的影响，并不是说降价完全来自预期。汽车价格下降原因并不止此）。而最惠条款则可以起到承诺的作用：企业不会降价了。

企业的所有权也是一种承诺。大家都知道，企业实际上是资本与劳动缔结的合约。但是为什么企业中是资本雇用劳动而不是劳动雇用资本呢？一种可行的解释在于，资本所有者的承诺比劳动力所有者的承诺更值得信赖，更不易采取机会主义行为。如果非人力资本所有者不能兑现自己的承诺，其他人可以将他的资本拿走，甚至以毀灭相威胁。对比之下，如果人力资本所有者违约，其他人对他实在没有什么好办法。常言道“跑得了和尚跑不了庙”，没庙的和尚谁能信任？而资本所有者投入资本就是修建了一座庙，以此承诺获取信任。

3、声誉与承诺

前面我们一直在表达一种观点：仅仅留于口头的承诺是非常廉价的。现实中却有一些困境——没有什么其他的行动可以使其承诺变得坚实，即使其承诺变得坚实的成本很高。这个时候，建立声誉将是增强其承诺可信性的好手段。

比如绑架事件中，绑匪和人质家属之间的博弈是非常微妙的：绑匪要求拿到赎金才愿意释放人质；对于家属来说，如果给出赎金能换回人质的话是不错的结果，但问题是，家属如何能相信绑匪拿到赎金后就会释放人质呢？要知道，绑匪们可都是铤而走险之辈，他们也完全可以在拿到赎金后将人质干掉，让人质家属人财两空。因此，绑匪们说见钱放人的承诺是很廉价的，难以让人们产生足够的信任。

既然家属不相信绑匪，那么是不是可以倒过来解决问题呢？比如，绑匪先释放人质，然后家属按照承诺将赎金交给绑匪。聪明的你其实马上也会意识到，家属支付赎金的口头承诺是廉价的，绑匪们也不会幼稚得相信人质家属，因为人质

家属在取回人质后完全可以不支付赎金，反而报警对付绑匪。

正因为绑匪和家属之间的信任是那么的脆弱，因此撕票的事情在现实中也确实有所发生。那么如何避免呢？

在现实中，职业绑匪将有动力树立起遵守诺言的“声誉”。他们通过这样的方式告诉人质家属，只要你付钱，我就一定会放人。所以经常出现的情况是，—旦遭遇职业绑匪，家属将愿意先交钱然后绑匪也会放人。撕票的事件其实常常发生于那些非职业绑匪的身上。这其中的原因，仅仅是因为职业绑匪要长期从事这个有“钱”图的职业，所以他们更看重“江湖规矩，一诺千金”。

用绑匪来讨论博弈论，可能会令人不快。但是，现实就是如此，比如一些公司企业，实际上也就像一个个的绑匪，他们把持在手中的“人质”是产品质量。消费者好比人质的家属，他们付出钱去买一件产品，但是购买的时候并不知道产品质量的高低（人质的死活）。于是理性的消费者会去选择那些类似于职业绑匪的公司（有些公司花巨额的金钱宣传自己的商标，实际上就是告诉消费者自己是一个“职业绑匪”）并跟他们交易，因为这些公司希望从长期的声誉中获取好处，它们将不愿意为了目前的一点蝇头小利而砸掉自己的招牌。

§5-4－3 报复的作用

1、报复能力的重要性

故事模型谢林在《冲突的战略》中曾提到一个窃贼的故事：一天，一个持枪的窃贼潜入一所房子行窃，房主听到楼下的响动之后，同样持枪一步步向楼下走来。于是，危机和冲突发生了。不排除一种可能结果是窃贼成功逃逸，双方均没有伤亡和财产损失。但是，也有可能出现这样的结果：主人担心窃贼会先开抢而率先向窃贼射击，致使窃贼身亡；另一种可能的结果是，窃贼担心主人会开枪射击，而首先射杀主人。但是，还有一种通常的形势是双方拔枪对峙，互相探测着对方的意图，谁也没有先开枪。毕竟，主人只是想赶走窃贼而不是要其性命，只要他相信窃贼不会对他下毒手，那么他就没有必要把窃贼推上绝路——要知道，窃贼的行为正好是跟他对主人的意图判断联系在一起的：如果他发现主人试图置其于死地，那么他就会尝试先置主人于死地；而如果他发现主人仅仅是想赶走他，那么他一般就并不会想射杀主人，毕竟盗窃未遂的罪名比杀人抢劫罪名要轻得多，何况他可以安全离开呢。即便主人想要窃賊的性命，那么他也必须对自己的枪法充满自信（确信可以一枪打死窃贼），他才可能表示出射杀窃贼的意图，否则一旦他表示出这种意图（即先开枪），那么窃贼也有机会对主人进行报复性射杀。同样的逻辑推理过程也适用于窃贼。

在这样的对峙中，除非一方确有把握一招制敌，否则谁也不想先动——没有一个人先动，那么危机就不会升级，这对双方都是相对较好的结果。任何一方都很清楚，一旦自己先动而又未能一招制敌，那么随即就会遭到对方的疯狂反扑，危机就此升级。此时不管谁胜谁负，结果其实都比大家不动的状态要糟糕。

在这样的拔枪对峙中，对枪法自信的一方率先开枪的可能性的确是有的，但这对其本人来说实际上增加了危险，因为对方可能也会因为担心他会开枪而率先开枪。相比较而言，如果双方只是手中持刀，那么对峙就更容易形成，因为谁都明白自己难以一刀令对方毙命，只要一方先挥刀，那么结果就是双方都会受伤。还不如在对峙下逐渐缓和，而窃贼慢慢退向门外并逃逸。

在这个例子中，对峙的危机常常并不会演化成血案，原因在于每个局中人都知道对方具有报复能力，从而谁也不愿去加剧危机。正因为如此，所以谢林认为，在博弈中，报复能力常常比攻击能力更重要。因为报复能力所形成的震慑往往约束了局中人，使其不会去采取攻击行为来恶化对峙危机。比如，在幼儿园中，力气大的小朋友可能会欺负力气小的小朋友，但是，如果力气小的小朋友有一个能力更大的哥哥会在他受欺负时出来为他出头，那么力气大的小朋友实际上就不会去欺负力气小的小朋友，因为他知道这样做无异于找揍。

在影视作品中经常可以看到借助于报复能力来增加谈判筹码的情况。比如两个人，其中叫张三的人掌握着叫李四的人的某些不可告人的秘密证据，足以令李四终身入狱。然后张三提出一笔交易，若李四给他100万，他就会销毁证据。然而李四在约见张三时常常会设下圈套，试图杀人灭口。电影中常见的结果是，聪明的张三并不会带去证据，而是把它保管在第三方，并且他告诉李四，如果自己死在他手上，那么秘密证据马上就会出现在警察局——这就是一种报复力量。因为这种报复威胁的存在，李四将无法处置张三，而只好将钱给张三，让他销毁证据。当然，你也许会问，他怎么可以轻信张三会销毁证据而将钱付给张三呢？原因在于，一方面张三要在道上长期混，就有动机实践自己的诺言而保住其在江湖上的诚信；更重要的是另一方面，李四也会告诉张三，如果张三拿了钱但是又没销毁证据的话，那么他会将张三碎尸万段——这也是一种报复力量。

2、为什么不宽恕

人们在教育孩子的时候常常告诉他们要学会容忍和宽恕。因为，当一个人伤害了你的时候，你即便报复了他也不能消除他已经对你形成的伤害。如果你还希望两个人的关系能够继续，那么最好是宽恕他。但是，从博弈论的角度来说，这并不是一个好的解决问题的策略，更好的策略应该是不宽恕。

其中的原因，一方面在于宽恕某个对手等于向其他人宣布你的“报复”是不可置信的，因为你不会采用它；另一方面在于，这个被宽恕的对手在以后就会得寸进尺，可能一直有意无意地、不停地伤害你。为了使你的报复可信，为了使你

避免遭受无休止的伤害，因此你应当学会不宽恕。

有许多教授一直被学生认为“心太狠”——因为教授常对学生说没有按时交作业或参加考试，那就铁定不及格了。事实上，绝大多数教授其实是宅心仁厚、宽大为怀的。那么，究竟是什么让教授变得铁石心肠呢？原因在于，聪明的教授知道，如果他原谅了一个迟交作业的学生，那么这个学生下一次作业也可能迟交，而且其他的学生都有可能仿效这个学生，不断编造美丽的借口来获取教授的原谅。既然教授无法区别哪些理由是事实、哪些理由只是借口，所以“概不留情”成为教授避免麻烦的一个最好的策略。

就像我们在一些影片中看到某些心地善良却遇人不淑的女子，她们一次又一次原谅胡作非为的丈夫，丈夫反而得寸进尺，因为他知道无论如何只要一些花言巧语扮可怜就会获得宽恕。

所以有时候，人们会对伤害选择报复。当别人打你一拳，你若打回一拳，这本身并不能减轻你已挨那一拳的疼痛，而且用力打回一拳通常也得不到快感。那为什么还要回击呢？原因在于，你知道打不还手只会让对手更加猖狂，而选择回击是遏制对方进一步侵犯的方式。

有人曾经主张废除死刑，理由是处死一个杀人犯并不能挽回被害者的性命，即犯罪的后果已经无法事后补救，因此这个杀人犯不必也去死。若是为了这样的理由，我是反对的。死刑对犯罪后果的确于事无补，但作为对犯罪行为的报复力量，至少让那些犯罪的念头会多权衡几次。作为一种震慑力量，它至少在一定程度上遏制了潜在的犯罪。

虽然宽恕是一种美德，但是人们有时采取绝不原谅对其的确是更有利的——当然，这并不绝对如此，因为有时绝不原谅也有麻烦的时候。比如说：××大学对博土生教育的规定是：凡是有一门学位课不及格就自动退学。很多人认为这样的规定太过分，而且对学生的压力也太大了。但事实是，学生的压力反而轻了，因为不及格足以让学生退学，所以教师在评判时通常就更为宽松。相反，倒是那些允许补考的学校，看来规定宽松，但教师评判正考成绩时往往并不留情。

所以，有些时候宽大为怀不一定好，有些时候毫无回旋余地也不见得佳。这就是奇奇妙妙的人类互动世界。