子博弈精炼纳什均衡+贝叶斯法则+信号博弈

一：子博弈精炼纳什均衡

在给出子博弈精炼Nash均衡的正式定义之前，我们需要先介绍“子博弈”这个概念。子博弈（sub game）：由一个单结信息集X开始的与所有该决策结的后续结（包括终点结）组成的，能够自成一个博弈的原博弈的一部分。即给定“历史”，每一个行动选择开始至博弈结束构成了的一个博弈，称为原动态博弈的一个“子博弈”。子博弈可以作为一个独立的博弈进行分析，并且与原博弈具有相同的信息结构。为了叙述方便，一般用表示博弈树中开始于决策结的子博弈。

譬如图3.5，该博弈存在3个子博弈：除了原博弈自己以外，还存在两个子博弈图3.6a子博弈和图3.6b子博弈。

在静态博弈分析时，我们所说的战略是指参与人声明他将做出何种选择，而他们往往也是按照声明做出实际选择的；在动态博弈中，战略尽管仍然具有这种含义，但博弈在行动选择上参与人具有选择行动的先后顺序情况下，参与人有了一种额外的选择——事后机会主义，后动的局中人完全可以根据博弈进行到此时对局中人最为有利的方式选择行动，而放弃事前所声明的战略所规定的行动选择选择其行动。这意味着，在动态博弈中，即使参与人人按事前所声明的战略组合构成一个纳什均衡，而这些均衡战略又规定了各个参与人在其所有信息集上的行动选择，这些行动选择也可能并非参与人在对应信息集上的最优行动选择。而当博弈实际进行到那些由纳什均衡战略规定的行动并非最优行动选择的信息集时，按照理性人假设，可以想象参与人届时并不会按纳什均衡战略所规定的方式去选择行动，而是机会主义地选择最优的行动。这样，具有这种特点的纳什均衡就是不可信的，即不能作为模型的预测结果，按照“精炼”纳什均衡的思想，应当将其消掉。

定义3.1：子博弈精炼纳什均衡（SPNE）：

扩展式博弈的策略组合 S*=(S1*,„, Si*,„, Sn* )是一个子博弈精炼纳什均衡当且仅当：如果它是原博弈的纳什均衡；它在每一个子博弈上也都构成纳什均衡。

如果一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足：在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。这也意味着原博弈的Nash均衡并不一定是子博弈精炼Nash均衡，除非它还对所有子博弈构成Nash均衡。例如前文的煤电博弈，（提价，接受）和（不提价，接受）均为纳什均衡，但后者并未满足在整个动态博弈及它的所有子博弈中都构成纳什均衡这一要件，因而理性的煤炭企业一定会选择提价。

博弈:一个扩展式表示博弈的子博弈G是由一个单结信息集x开始的与所有该决策结的后续结(包括终点结)组成的能自成一个博弈的原博弈的一部分。

对于扩展式博弈的策略组合S*=(S1*,…,Si*,…,Sn*) ,如果它是原博弈的纳什均衡;它在每一个子博弈上也都构成纳什均衡,则它是一个子博弈精炼纳什均衡。

博弈论专家常常使用“序贯理性”(Sequential rationality)：指不论过去发生了什么，参与人应该在博弈的每个时点上最优化自己的策略。子博弈精炼纳什均衡所要求的正是参与人应该是序惯理性的。对于有限完美信息博弈，逆向归纳法是求解子博弈精炼纳什均衡的最简便的方法。因为有限完美信息博弈的每一个决策结都开始一个子博弈。求解方法：最后一个结点上的子博弈（纳什均衡）→倒数第二个（纳什均衡） → ······ → 初始结点上的子博弈（纳什均衡）。

上图摘自张维迎的《博弈论与信息经济学》（P 7）

在此图中，我们可以看出博弈论大概分为四类，每种类别都有固定的纳什均衡。

这道题中所问的“如何分辨子博弈”，是求解子博弈精炼纳什均衡的基础。而“贝叶斯法则”是求解精炼贝叶斯均衡的基础。

所以，如果扩展一下是属于如何求解完全信息动态博弈的子博弈精炼纳什均衡，以及如何求解不完全信息动态博弈的精炼贝叶斯纳什均衡。在下面分开讨论。

一、完全信息动态的子博弈精炼纳什均衡

完全信息动态一般用扩展式表述。

子博弈精炼纳什均衡要求（1）它在原博弈上是纳什均衡（2）它在每一个子博弈上都是纳什均衡。

所以，如何分辨一个扩展式有几个子博弈，关键在于看一个扩展式表述的博弈中有几个单节信息集。同时，子博弈不能切割原博弈的信息集。

通过下面几个图来解释：

图 1

在此博弈中，有三个参与者，分别是A、N（自然）、B。

共有七个决策点，A有一个。N有两个，B有四个。这七个决策点分割成七个信息集，每个信息集都只包括一个决策点。（表示，所有参与者在参与时准确知道自己处于哪个决策结。）子博弈由每个决策结及其后续结构成，所以在图一中，共有七个子博弈。

（注意：任何博弈本身成为其自身的一个子博弈。）

图 2

图2与图1相同，也有三个参与者，A、N（自然）、B。

不同的是，B在选择时并不知道N的选择，也就是说B知道A选择了开发或者不开发，但是不知道N选择了大还是小。因为B不知道自己处在N选择了大还是小的决策结上，用虚线表示。此时，B有两个信息集，但是每个信息集有两个决策点。

总结来说，在图2中，A有一个信息集，只包含一个决策结；N有两个信息集，各包含一个决策结；B有两个信息集，各包含两个决策结。所以，图2共有三个单节信息集，那么也就可以判断图2有三个子博弈。

图 3

在同样三个参与者的图中，图3代表A决策时不知道N决策的结果；B知道自然的选择，但是不知道A的选择。在图3中，根据“子博弈不能切割原博弈信息集”的规则，图3只有一个子博弈就是原博弈本身。

图3的博弈还可以用另外的方式来表达，可能更容易理解。

图 4

图4和图3代表的完全是同一个博弈。A决策时不知道N决策的结果；B知道自然的选择，但是不知道A的选择。在这个图中，根据之前的“有几个单节信息集就有几个子博弈”的判断方法，可以知道只有一个子博弈就是原博弈本身。或者说，只有一个子博弈，即N有一个信息集只包含一个决策点。

二、贝叶斯法则的理解

如何理解贝叶斯法则在博弈论中的应用，我觉得张维迎《博弈论与信息经济学》中举的一个例子很好，我先把这部分截图放在下面。

摘自张

维迎《博弈论与信息经济学》 P182~P183

三：信号博弈及贝叶斯法则的运用

信号博弈（Signaling game），是一种由一个发送者（S）和另一个接收者（R）所组成的动态博弈。一开始这个发送者有一个给定的类型（t），接着发送者会观察这个没有其他人（好比说接收者）知道的类型，去从讯息堆 M = {m1, m2, m3,..., mj} 中选择送出一个讯息（m），接着接收者会观察这个讯息后从他可行的动作中 A = {a1, a2, a3,...., ak} 选一个作为反应动作（a），这里要注意的是接收者除了讯息之外其他都无法得知（如发送者的类型t），接着根据（t, m, a）的组合来决定双方会获得的报酬或回报。

用贝叶斯法则求解精炼贝叶斯纳什均衡最典型的例子应该是用在信号博弈上。

可以参考罗云峰主编的《博弈论教程》，第十三章1、2小节。我觉得这本书相对讲的清楚些。

这是之前上课用到的一个例子，把它放在下面。

首先，在这个博弈中，有三个参与者，分别是N、S、R。Sender有两种类型，他是哪种类型是其私有信息。也就是说，receiver不知道sender是哪种类型，知道的是1/2的可能性是t1,另外1/2的可能性是t2，同时Receiver可以根据Sender的行动来修正自己的判断。 Sender有两个行动的可能性，L或者R；Receiver有两个行动的可能性，u或者d。

1.假设无论是Sender t1，还是Sender t2，都会选择L。这一假设条件可以表示为 p（L︱ t1）= p（L︱t2）= 1。又知Sender 1/2的可能性是t1,另外1/2的可能性是t2，即p（ t1）= p（t2）= 0.5 那么这个时候，根据贝叶斯法则。他选择U，受益是1/2*3+1/2*4=3.5。如果他选择d，收益是1/2*0+1/2*1=0.5。所以，在Sender选L的情况下，Receiver会选u。在Receiver选U的情况下，Sender t1 选L的收益是1，Sender t2选L的收益是2.

以上结论，建立在“无论是Sender t1，还是Sender t2，都会选择L，这一假设上，那么要使上述结论成立，首先这个假设要成立。如何让这个假设成立呢？就需要保证，如果Receiver选择u，那么无论对哪种类型的Sender来说，选L一定比选R好。因此，当Sender选择R时，Receiver做出的反应使得任何类型Sender得到的收益，都小于其选择L得到的收益。当Sender选择R时，只有Receiver选择d 才能保证任何类型的Sender收益都小于其选择L的收益。所以，必须保证当Sender选择R时，Receiver一定选择d。要想保证Receiver一定选择d呢，则一定要使Sender选R时，Receiver选u的预期收益小于其选d的预期收益。即q+（1-q）*0

2. 假设无论是Sender t1，还是Sender t2，都会选择R

这一假设条件可以表示为 p（R︱ t1）= p（R︱t2）= 1。又知Sender 1/2的可能性是 t1,另外1/2的可能性是t2，即p（ t1）= p（t2）= 0.5 那么这个时候，根据贝叶斯法则。他选择u，受益是1/2*1+1/2*0=0.5。如果他选择d，收益是1/2*0+1/2*2=1。所以，在sender选

L的情况下，Receiver会选d。

在Receiver选d 的情况下，sender t1 选R的收益是0，sender t2选R的收益是1。

如果Sender选择L，那么Receiver选择u总是优于其选择d，所以Receiver一定会选择u。而当Receiver选择u是，sender t1 收益是1，sender t2的收益是2。

所以这种情况，Sender选L总是优于其选R。

与假设相悖，不存在均衡。

3.如果是Sender t1，会选择L：如果是Sender t2，会选择R。

在这种情况下，根据贝叶斯法则，p=1 q=0（如果Receiver发现Sender的选择是L，就会知道是Sender t1，如果发现选择的是R就能判断出是R）

在Sender t1选择L时，Receiver会选择u，Sender获得收益1；当Sender t2选择R时，Receiver会选择d，Sender获得收益1。

需要检验，当确定Receiver选择u、d时， Sender做出与假设不一样的选择是否会得到更高的收益。

当Receiver会选择u，Sender t1选择R收益少于选L（可以）；当Receiver会选择d，Sender t2选择L收益大于R。因此，Sender t2会选择L，与假设相悖。

所以，这种均衡不存在

4.如果是Sender t1，会选择R：如果是Sender t2，会选择L。

在这种情况下，根据贝叶斯法则，p=0 q=1

在Sender t1选择R时，Receiver会选择u，Sender获得收益2；当Sender t2选择L时，Receiver会选择u，Sender获得收益2。

再次检验，当确定Receiver选择（u︱L，u︱R）时，两类型Sender做出与假设不一样的选择是否会得到更高的收益。

当Receiver会选择u，Sender t1选择L收益少于选R（可以）；当Receiver会选择u，Sender t2选择R收益小于L（可以）。

所以，这种均衡存在：｛（R︱t1, L︱t2），（u︱L, u︱R），p=0， q=1｝

三：贴现因子及其在重复博弈中的运用

一般来说，当利率为r时，承诺T年之后支付R美元的现值是R美元/ (1+r)^T。因此，即使没有通货膨胀，将来1美元的价值也小于现在1美元的价值，必须按某一数额贴现，该数额取决于利率的高低和收到货币的时间长短。其中1/ (1+r)^T被称为未来T时期的货币的贴现因子(discount factor)。

贴现因子(discount factor)，也称折现系数、折现参数。

所谓贴现因子，就是将来的现金流量折算成现值的介于0－1之间的一个数。贴现因子在数值上可以理解为贴现率，就是1个份额经过一段时间后所等同的现在份额。这个贴现因子不同于金融学或者财务学的贴现率之处在于，它是由参与人的“耐心”程度所决定的。“耐心”实质上是讲参与人的心理和经济承受能力，不同的参与人在谈判中的心理承受能力可能各不相同，心理承受能力强的可能最终会获得更多的便宜；同样，如果有比其他参与人更强的经济承受能力，也会占得更多的便宜。

贴现因子δ=1/(1+r)^T 0

（注：^T表示T次方）

学者在博弈论对贴现因子的定义：贴现因子是讨价还价博弈中的一个很重要的概念，

Gibbons将贴现因子定义为“货币的时间价值”，实际上就是贴现率=1/1+r；

张维迎的博弈论中将贴现因子解释为参与人的耐心程度，贴现因子表示一个参与人的耐心程度，取值在『0，1』，越大说明参与人的耐心越好，若是等于0则说明参与人完全没有耐心。由于贴现因子是由公式 1/1+r定义的，那么可以看到，收益率越大，则贴现因子越小，则参与人的耐心程度越小；反之，如果收益率越小，则贴现因子越大，参与人越有耐心。

令贴现因子为d,d=(1-p)/(1+r), 其中p为博弈立即结束的概率,r为利率.这样贴现因子中就涵盖了货币的时间价值和博弈将要结束的可能性.而当p=1时,表示博弈立即结束,此时d=0,当p=0时,博弈继续,d=1/(1+r).这里的p也可以表示为人的耐心(吉本斯,1999).