第二章 完全信息静态博弈
本章介绍完全信息静态博弈。完全信息静态博 弈即各博弈方同时决策,且所有博弈方对各方得益 都了解的博弈。囚徒的困境、齐威王田忌赛马、猜 硬币、石头剪子布、古诺产量决策都属于这种博弈。 完全信息静态博弈属于非合作博弈最基本的类型。 本章介绍完全信息静态博弈的一般分析方法、纳什 均衡概念、各种经典模型及其应用等。 基本特征:各博弈方同时选择策略,并且个博弈方有 关于得益的充分信息; 关键不是时间上的同步,而是在选择策略时不知其 他博弈方的策略
2011-11-24
2.1 基本分析思路和方法
2.1.1 上策均衡 2.1.2 严格下策反复消去法 2.1.3 划线法 2.1.4 箭头法
2011-11-24
2.1.1 上策均衡
上策:不管其它博弈方选择什么策略,一博弈方的 某个策略给他带来的得益始终高于其它的策略, 至少不低于其他策略的策略 如:囚徒的困境中的“坦白”;双寡头削价中“低价” 就是严格上策。 上策均衡:一个博弈的某个策略组合中的所有策略 都是各个博弈方各自的上策,必然是该博弈比较 稳定的结果 上策均衡不是普遍存在的,如:齐王赛马,赌胜博弈 或古诺产量的博弈中就没有上策均衡
2011-11-24
上策均衡反映了所有博弈方的偏好,因此 非常稳定.根据上策均衡可以对博弈结果 作出肯定的预测。 正是由于上策均衡不普遍存在,才正是 博弈理论的价值所在。
2011-11-24
2.1.2 严格下策反复消去法
严格下策:不管其它博弈方的策略如何变化, 给一个博弈方带来的收益总是比另一种策略 给他带来的收益小的策略 严格下策反复消去:
左 上 下 1,0 0,4 中 1,3 0,2 右 0,1 2,0 左 1,0 0,4 中 1,3 0,2 左 1,0 中 1,3
2011-11-24
2.1.3 划 线法
1, 0 0, 4 囚 徒 困 境 猜 硬 币 -5, -5 -8, 0 -1, 1 1, -1
策略之间的相对优劣关系,而 不是绝对优劣关系——划线法。
1, 3 0, 2 0, -8 -1, -1 1, -1 -1, 1 0, 1 2, 0 夫 妻 之 争 2, 1 0, 0 0, 0 1, 3
有时,划线也不能解决博弈的最终问题。
2011-11-24
2.1.4 箭头法
1, 0 0, 4 囚 徒 困 境 猜 硬 币
2011-11-24
1, 3 0, 2
0, 1 2, 0 夫 妻 之 争
-5, -5 -8, 0
0, -8 -1, -1
2, 1 0, 0
0, 0 1, 3
-1, 1 1, -1
1, -1 -1, 1
上述具有稳定性的策略中,不论是否唯一, 都有一个共同的特征,就是其中每个博弈方 的策略都是针对其他博弈方策略或策略组合 的最佳对策。
2.2 纳什均衡
2.2.1 纳什均衡的定义 2.2.2 纳什均衡的一致预测性质 2.2.3 纳什均衡与严格下策反复消去法
2011-11-24
纳什均衡(Nash Equilibrium)
纳什均衡是著名博弈论专家纳什 (John Nash)对博弈论的重要贡献之一。 纳什在
19世纪1950年1951年的两篇重要 论文中,在一般意义上给定了非合作博 弈及其均衡解,并证明了解的存在性。 正是纳什的这一贡献奠定了非合作博弈 论的理论基础。纳什所定义的均衡称之 谓“纳什均衡”。
2011-11-24
2.2.1 纳什均衡的 定义
S1 策略空间:, Sn s 博弈方 i的第 j个策略: i j S u 博弈方 i的得益: i G 博弈: {S1 ,Sn ; u1 ,un }
i
纳什均衡的实质:通俗地 说,纳什均衡含义就是:给 定你的策略,我的策略是最 好的策略;给定我的策略, 你的策略也是你最好的策略。 即双方在对方给定的策略下 不愿意调整自己的策略。
* ( s i* , s i*1 , s i*1 ,... s n )
纳什均衡:在博弈 G {S1 , S n ; u1 , u n } 中,如果由各个 * 博弈方的各一个策略组成的某个策略组合 ( si* , s n ) 中, 任一博弈方i 的策略,都是对其余博弈方策略的组合 * * ui ( si* , si*1 , si* , si*1 ,...sn ) ui ( si* , si*1 , sij , si*1 ,...sn ) 的最佳对策,也即 * 对任意s i j S i 都成立,则称 ( s i* , s n ) 为 G 的一个纳什均 衡
2011-11-24
诺贝尔经济学奖获得者萨缪 尔森有一句幽默的话: 你可以将一只鹦鹉训练成经 济学家,因为它所需要学习的 只有两个词:供给与需求。博 弈论专家坎多瑞引申说:要成 为现代经济学家,这只鹦鹉必 须再多学一个词,这个词就是 “纳什均衡”。由此可见纳什均 衡在现代经济学中的重要性。 纳什均衡不仅对经济学意义重 大,对其他社会科学意义也同 样重大。
2011-11-24
2.2.2 纳什均衡的一致预测性质
一致预测:如果所有博弈方都预测一个特定博弈 结果会出现,所有博弈方都不会利用该预测或者 这种预测能力选择与预测结果不一致的策略,即 没有哪个博弈方有偏离这个预测结果的愿望,因 此预测结果会成为博弈的最终结果 只有纳什均衡才具有一致预测的性质 一致预测性是纳什均衡的本质属性 一致预测并不意味着一定能准确预测,因为有 多重均衡,预测不一致的可能
2011-11-24
2.2.3 纳什均衡与严格下策反复消去法
. 1 : 上述两个命题保证在进行纳什均衡分析之前先通过严格 在 命 下策反复消去法简化博弈是可行的 n 题 个 2 博 . 弈 2 2011-11-24 方 :
s i ( ,
上策均衡肯定是纳什均衡,但纳什均衡不一定是上策 命 均衡。上策均衡是比纳什均衡更强、稳定性更高的均 题 衡概念,只是上策均衡在博弈问题中的普遍性比纳什 2 均衡要差得多。
i s i ( G S 1 { ,
G S 1 { ,
2.2.3 纳什均衡与严格下策反复消去法
上策均衡肯定是纳什均衡,但纳什均衡不一定是上策均衡
命题2.1:在n个博弈方的博弈
G {S1 , S n ; u1 , u n } 中,如 * * 果严格下策反复消去法排除了除 ( s i , s n ) 之外的所有 * 策略组合,那么 ( s i* , s n ) 一定是该博弈的唯一的纳什 均衡 命题2.2:在n个博弈方的博弈中 G {S1 , Sn ; u1 ,un } 中,如 * ( s i* , s n ) 是 的一个纳什均衡,那么严格下策反复 果 消去法一定不会将它消去 上述两个命题保证在进行纳什均衡分析之前先通过严 格下策反复消去法简化博弈是可行的
2011-11-24
混合战略纳什均衡
社会福利博弈
流浪汉 寻找工作 政府 2 救济 3, 1 不救济 -1, 没有一个战略组合构成纳什均衡 流浪 3 -1, 0 0,
2011-11-24
混合战略纳什均衡
零和博弈
博弈参与者有 输有赢,但结 果永远是0。 正面 正面 1 -1, -1 1, 反面 -1 1, 1 -1,
猜谜游戏
两个儿童各 拿一枚硬币, 若同时正面 朝上或朝下, A给B 1分 钱,
若只有一面 朝上,B给A 反面 1分钱。 2011-11-24 没有一个战略组合构成纳什均衡
混合战略纳什均衡
上述博弈的特征是:
在这类博弈中,都不存在纯纳什均衡。 参与人的支付取决于其他参与人的战略;以某种概 率分布随机地选择不同的行动 每个参与人都想猜透对方的战略,而每个参与人又 不愿意让对方猜透自己的战略。
这种博弈的类型是什么?如何找到均衡?
2011-11-24
混合战略纳什均衡
请举一些这样的例子:
石头、剪子、布游戏 杠子、老虎、鸡、虫子游戏 扑克游戏
2011-11-24
混合战略纳什均衡
猜谜游戏
两个小孩的最 优策略是采取每 个策略的可能性 均为1/2; 每个小孩各取 策略的1/2是纳 什均衡。
2011-11-24
零和博弈
正面 正面 反面 1 -1, -1 1,
反面 -1 1, 1 -1,
混合战略纳什均衡
战略:参与人在给定信息集的情况下选择行动的规 则,它规定参与人在什么情况下选择什么行动,是参 与人的“相机行动方案”。 纯战略:如果一个战略规定参与人在每一个给定的信 息情况下只选择一种特定的行动,该战略为 纯战略。
混合战略:如果一个战略规定参与人在给定信息情况 下以某种概率分布随机地选择不同的行 动, 2011-11-24 则该战略为混合战略。
混合战略纳什均衡
混合战略:如果一个战略规定参与人在给定信息情况 下以某种概率分布随机地选择不同的行动, 则该战略为混合战略。
在 n 个参与人博弈的战略式 表述: G S1, S 2, , S n; u1 , u 2 , , u n 中, 那么,概率分布 i i1, , ik
假定参与人 i有 K 个纯战略: S i si1 , sik , 称为 i的一个混合战略,这里 ik ( sik) 是 i选择 sik的概率,对于所
有的
2011-11-24
k 1, , K , ik 1, 1 ik 1。 0
k
混合战略纳什均衡
纯战略可以理解为混合战略的特例,即在诸多战略 中,选该纯战略si的概率为1,选其他纯战略的概率 为0。
小猪 按 等待 4,4 0,0
正面 正面
1 -1, -1
大猪
按
5,1
反面
-1 1, 1 -1,
等待 9,-1
2011-11-24
反面
1,
混合战略纳什均衡
如何寻找混合战略纳什均衡?
支付最大化法 支付等值法 由于混合战略伴随的是支付的不确定性,因此参与 人关心的是其期望效用。 最优混合战略:是指使期望效用函数最大的混合战 略(给定对方的混合战略) 在两人博弈里,混合战略纳什均衡是两个参与人的 最优混合战略的组合。
2011-11-24
支付最大 化法
混合战略纳什均衡
流浪汉
寻找工作 流浪
假定政府的混合战略是 G , ); ( 1 流浪汉的混合战略是 L , )。 ( 1 政府的期望效用函数为 : v( G, L) (3 1)(1 )) (
2
救济
3, 1 -1,
政府
不救济
3 -1, 0 0,
( 0 1 )( (1 )) (5 1)
同样,可以根据流浪汉 的期望效用函数找到政 2011-11-24 府的最优混合战
求微分,得到政府最优 化的一阶条件: vG 5 1 0 故 * 0 .2
即:流浪汉以0.2的概率选择寻 找工作,0.8的概率选择游荡
流浪汉 寻找工作的概率小于0.2
政府 概率为1:不救济
流浪汉 寻找工作
2011-11-24
政府 救济
纳什均衡存在性及相关讨论
纳什均衡存在性定理:每一个有限博弈至少
存在一个纳什均衡(纯战略的或混合战略的)。
2011-11-24
纳什均衡存在性及相关讨论
大流士阴谋推翻波斯王国的故事: 当时,一群波斯贵族聚在一起决定推翻国王,其间有人提议 休会,大流士此时站出来大声疾呼,说如果休会的话,就一 定会有人去国王那里告密,因为如果别人不那么做的话,他 自己就会去做,大流士说唯一的办法就是冲进皇宫,杀死国 王。 这个谋反的故事还提供了关于协调博弈的出路。在杀死国王 之后,贵族们想从自己人中推选出一个人当国王,他们决定 不自相残杀,而是在佛晓十分到山上去,谁的马先叫谁就当 国王。大流士的马夫在这场随机的安排中做了手脚,从而成 为国王。
2011-11-24
2.3 无限策略分析和反应函数
2.3.1 古诺的寡头模型 2.3.2 反应函数 2.3.3 伯特兰德寡头模型 2.3.4 公共资源问题 2.3.5 反应函数的问题和局限性
2011-11-24
2.3.1 古诺的寡头模型
寡头产量竞争——以两厂商产量竞争为例 Q q1 q2
P P (Q ) 8 Q
c1
c 2 2
u1 q1P(Q) c1q1 q1[8 (q1 q2 )] 2q1
6 q1 q1q2 q12
u2 q2P(Q) c2q2 q2[8(q1 q2 )]2q2
6q2 q1q2 q22
2011-11-24
2.3.2 反应函数
古诺模型的反应函数
q2
理性局 限和古 诺调整
max u1 max(6q1 q1q2 q12 )
q1
q1 R1 (q2 ) 1 (6 q2 ) 2 q2 R2 (q1 ) (6 q1 )
1 2
(0,6) (0,3)
R1 (q2 )
R2 (q1 )
(3,0) (6,0)
q1
古诺模型的反应函数图示
2011-11-24
2.3.2 反应函数
古诺模型的纳什均衡也可以通过对划线法思路 的推广来求,划线法的思路是先找出每个博弈方 针对其他博弈方所有策略(或策略组合)的最佳对 策,然后再找出相互构成最佳对策的各博弈方策 略组成的策略组合,也就是博弈的纳什均衡。 在无限策略的古诺博弈模型中这样的思路实际 上也是可行的,只是其他博弈方的策略现在有无限 多种,因此各个博弈方的最佳对策也有无限种,它 们之间往往构成一种连续函数关系。
2011-11-24
在上面讨论的两寡头古诺模型中,对厂商2的任 意产量q2 ,厂商1的最佳对策产量q1 ,就是使自己 在厂商2生产产量q2的情况下利润最大化的产量,即 q1是最大化问题:
max{q1 (6 q1 q2 )}
q1
的解。上式对q1求导并令导数等于0
u1 6 2q1 q2 0 q1 1 由此得: q1 R1 (q2 ) (6 q2 ) 2 2011-11-24
从图中可以看出,当一方的产量选择为0时,另一方的最佳 反应为3。这正是实现市场总利润最大的产量,因为这时候等于 由一个厂商垄断市场,市场总体利润就是该厂商的利益;当一 方的产量达到6时,另一方被迫选择0,因为这时后者坚持生产 已经无利可图。 在两个反应函数对应的两条直线上,只有它们的交点(2,2) 代表的产量组合,才是由相互对对方的最佳反应产量构成的。 q2 R1(q2)上的其他所有点(q1,q2) 只有q1是对q2的最佳反应,q2 不是对 6 R1 (q2 ) q1的最佳反应,而R2(q1)上的点则刚 好相反。 3 (2,2) 根据纳什均衡的定义,(2,2)是该古
诺模型的纳什均衡,并且因为它是惟的一 个,因此应该是该博弈的结果。这个结论 与前面直接根据纳什均衡定义得到的完 全—样。 2011-11-24
R2 (q1 )
3
6
q1
2.3.3 伯特兰德寡头模型
现在我们把反应函数法应用到伯特兰德模 型的分析。伯持兰德1883年提出了另一种形式 的寡占模型。这种模型与选择产量的古诺模型 的区别在于,伯特兰德模型中各厂商所选择的 是价格而不是产量。我们用简单的两寡头且产 品有一定差别的伯特兰德价格博弈模型进行分 析。
2011-11-24
上述产品有一定差别是指两个厂商生产的是 同类产品,但在品牌、质量和包装等方面有所不 同,因此伯特兰德模型中厂商的产品之间有很强的 替代性.
但又不是完全可替代,即价格不同时,价 格较高的不会完全销不出去。当厂商1和厂商2价格 分别为P1和P2时,它们各自的需求函数为:
q1 q1 P , P2 a1 b1P d1P2 1 1
和
q2 q2 P , P2 a2 b2 P2 d2 P 1 1
2011-11-24
从上式可以看出产品之间是有差别的,其中d1, d2>0即两厂商产品的替代系数。我们也假设两厂商 无固定成本,假设边际生产成本分别为c1和c2 。 两博弈方的得益函数分别为:
u1 P1 , P2 P1q1 c1q1 P1 c1 a1 b1 P1 d1 P2 u 2 P1 , P2 P2 q2 c2 q2 P2 c2 a2 b2 P2 d 2 P1
2011-11-24
我们直接用反应函数法分析这个博弈。上两式分 别对P1和P2求偏导,并令偏导数为0,由此得:
u1 a1 b1c1 2b1 P d1 P2 0 1 P 1 u2 a2 b2 c2 2b2 P2 d 2 P 0 1 P2
求出两厂商对对方策略(价格)的反应函数分别为:
1 P R1 ( P2 ) (a1 b1c1 d1 P2 ) 1 2b1 和
1 P2 R2 ( P ) (a2 b2 c2 d 2 P ) 1 1 2b2
2011-11-24
a1 (2b2 d1 ) * a2 (2b1 d 2 ) ,P2 P 4b1b2-d1d 2 4b1b2-d1d 2
* 1
将P1*,P2*代入得益函数则可进一步得到两厂商 的均衡得益值。 具体地,如果进一步假设模型中的参数分别为:
a1 a2 28,b1 =b2 =1 , d1=d 2=0.5,c1 =c2 =2
则可以得到: P1*=P2*=20, u1*=u2*=324。
2011-11-24
2.3.4 公共资源问题
随着社会经济的不断发展,我们越来越无法回 避公共资源利用、公共设施提供和公共环境保护等方 面的问题。而在这些问题中,也包含了众多的博弈关 系。我们以人们对公共资源利用方面的博弈关系为例 来作一些讨论。
2011-11-24
在经济学中,所谓公共资源是指具有: (1)没有哪个个人、企业或组织拥有所有权; (2)大家都可以自由利用,这样两个特征的自然资源或 人类生产的供大众免费使用的设施和财货。 例如大家都可以开采使用的地下水,可自由放牧 的草地,可自由排放废水的公共河道(假设政府未予限 制),以及公共道路、楼道的照明灯等。 由于公共资源有上述两个特征,因而利用这些 资源时不支付任何代价,除非政府将这些资源收归国 有,并对使用者征收资源税或收取类似的费用。
2011-11-24
经济学者们很早就己经开始认识到,在人们完全 从自利动机出发自由利用公共资源时,公共资源倾向 于被过度利用、低效率使用和浪费,并且过度利用会 达到任何利用它们的人都无法得到实际好处的程度。 我们用下面这个公共草地的放牧为例来论证这个结论。
设某村庄有n个农户,该村有一片 大家都可以自由放牧羊群的公共草地。 出于这片草地的面积有限,因此只能让 不超过某
一数量的羊群吃饱,如果在这 片草地上放牧羊只的实际数量超过这个 限度,则每只羊都无法吃饱,从而每只 羊的产出(毛、皮、肉的总价值)就会减 少,甚至只能勉强存活或要饿死。
2011-11-24
假设这些农户在夏天才到公共草地放羊,而每年春天就 要决定养羊的数量,因此可看作各农户在决定自己的养 羊数量时是不知道其他农户养羊数的,即各农户决定养 羊数的决策是同时作出的。 再假设所有农户都清楚这片公共草地最多能养多 少只羊和在羊只总数的不同水平下每只羊的产出。这 就构成了n个农户之间关于养羊数的一个博弈问题,并 且是一个静态博弈。 在此博弈中,博弈方就是n个农户;他们各自的策 略空间就是他们可能选择的养羊数目qi(i=1,2, …,n) 的取值范围。
2011-11-24
当各农户养羊数为q1、q2、… 、qn时,在公共草 地上放牧羊只的总数为Q=q1+q2+…+qn ,根据前 面的介绍,每只羊的产出应是羊群总数Q的减函数 V=V(Q)=V(q1,q2,… ,qn) 假设购买和照料每只羊的成本对每个农户都是相 同的不变常数c,则农户i养qi只羊的得益函数为:
u i qiV Q qi c qiV q1 q 2 q n qi c
为了使讨论比较简单和能得到直观的结论,我们 进一步设定下列具体数值。每只羊的产出函数为: V=100-Q=100-(q1+q2+……+ qn)
2011-11-24
假设n=3,即只有三个农户,成本c=4。这时, 三农户的得益函数分别为:
u1 =q1 (100 q1 q2 q3 ) 4q1 u2 =q2 (100 q1 q2 q3 ) 4q2 u3 =q3 (100 q1 q2 q3 ) 4q3
由于羊的数量不是连续可分的,田此上述 函数不是连续函数。但我们在技术上也可以把 羊的数量看作连续可分的,因此上述得益函数 仍然可当作连续函数来处理。
2011-11-24
分别求三农户各自对其他两农户策略(养 羊数)的反应函数,得:
1 1 q1 R1 (q2 , q3 ) 48 q2 q3 2 2 1 1 q2 R2 (q1 , q3 ) 48 q1 q3 2 2 1 1 q3 R3 (q1 , q2 ) 48 q1 q2 2 2
三个反应函数的交点 (q1*,q2*,q3*)就是博弈的纳什 均衡。我们将q1*,q2*,q3*代入上述应函数,并解此联立 方程组,即得q1*=q2*=q3*=24,再将其代入三农户的 得益函数,则可得u1*=u2*=u3*= 576,此即三农户独 立同时决定在公共草地放羊数量时所能得到的利益。
2011-11-24
如果各农户能将养羊数自觉限制在48/3=16只,则 他们都能得到更多的利益。但问题是他们面临的也是— 种囚徒的困境局面,因此很难实现这种理想的合作的结 果。这个例子再一次证明了纳什均衡,或者说非合作博 弈的结果有可能是低效率的。 在本例中,如果利用上述草地资源的农户数进一步 增加,则纳什均衡的效率会更
低;如允许外来者任意加 入利用该公共资源的行列,则所有利用该资源的人的利 益很决都会消失,即羊只总数会随着放牧农户数的增加 而增加到刚好不至于亏损的水平,各农户将完全不能从 在公共草地上养羊得到任何好处,公共资源等于完全被 浪费掉。
2011-11-24
2.4 混合策略和混合策略纳什均衡
2.4.1 严格竞争博弈和混合策略的引进 2.4.2 多重均衡博弈和混合策略 2.4.3 混合策略和严格下策反复消去法 2.4.4 混合策略反应函数
2011-11-24
2.4.1 严格竞争博弈和混合策略的 引进
一、猜硬币博弈 盖 硬 正 面 币 反 面 方 猜硬币方 正 面 反 面 -1, 1 1, -1 1, -1 -1, 1
(1)不存在前面定义的纳什均衡策略组合 (2)关键是不能让对方猜到自己策略 这类博弈很多,引出混合策略纳什均衡概念
2011-11-24
二、混合策略、混合策略博弈和混合策略纳 什均衡
混合策略:在博弈 G {S1,Sn ; u1 ,un }中,博弈方 i的策略 空间为 S i {si1 , sik } ,则博弈方i 以概率分布pi ( pi1 , p ik ) 个可选策略中选择的“策略”,称为一个“混合策 随机在其 k 略”,其中 0 p ij 1 对 j 1,, k 都成立,且p i1 p ik 1 混合策略扩展博弈:博弈方在混合策略的策略空间(概率 分布空间)的选择看作一个博弈,就是原博弈的“混合策 略扩展博弈)。 混合策略纳什均衡:包含混合策略的策略组合,构成纳什均 衡。
2011-11-24
齐威王田忌赛马
田 忌 上 上 上 上 上 上 中 中 中 中 中 中 下 下 下 下 下 下 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1 1,-1 1,-1 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3 得益矩阵
2011-11-24
上中下 齐 上中下 威 上中下 王 上中下 上中下 上中下
小偷和守卫博弈
守卫 睡 不睡 小偷 偷不偷 V,-D -P,0 0,S 0,0
一小偷欲偷窃有一守卫看守的仓库,如果小偷偷窃 时守卫在睡觉,则小偷就能得手,偷得价值为V的 脏物;如果小偷偷窃时守卫没有睡觉,则小偷就会 被抓住。设小偷被抓住后要坐牢,负效用为-P, 守卫睡觉而未遭偷窃则有S的正效用,因睡觉被窃 要被解雇,其负效用为-D。而如果小偷不偷则他 既无得也无失,守卫不睡觉意味着出一份力赚一分 钱,他也没有得失。
2011-11-24
小偷和守卫的博弈
守卫 睡 不睡 小 偷 V,-D-P,0 偷 不偷 0,S 0,0
守卫 得益((睡)
S Pt* Pt* ’ 1 -D - D’
0
Pt 小偷 偷的概率
守卫睡的 期望得益 S(1-Pt)+(-D)Pt
加重对守卫的处罚:短期中的效果是使守卫真正尽职 在长期中并不能使守卫更尽职,但会降低盗
窃发生的概率
2011-11-24
小偷和守卫的博弈
守卫 睡 不睡 小 偷 V,-D-P,0 偷 不偷 0,S 0,0
小偷 得益(偷)
V Pg* 0 -P Pg* ’ 1
Pg 守卫 睡的概率
- P’
加重对小偷的处罚:短期内能抑制盗窃发生率 长期并不能降低盗窃发生率,但会是的守卫更多的偷懒
2011-11-24
当我们为减少盗窃率,加重对小偷的惩罚 时,最终的结果却带来了守卫的偷懒,形成了 一种政策目标和政策结果之间的意外关系,这 就被称为“激励的悖论”。 小偷偷东西,保安渎职。为了避免这种情 况,是加重对小偷的惩罚呢,还是加重对保安 的惩罚? 由此给我们带来什么启示? 执法,监督,等等
2011-11-24
纳什均衡的存在性
纳什定理:在一个由n个博弈方的博弈 G {S1 , Sn ; u1 ,un } 中,
n 如果n是有限的,且 S i 都是有限集(对 i 1,),则该博弈至 少存在一个纳什均衡,但可能包含混合策略。
纳什均衡的普遍存在性正是纳什均衡成为非合作博弈分析核 心概念的根本原因之一。
2011-11-24
2.6 纳什均衡的选择
多重纳什均衡博弈的分析
2011-11-24
2.6.1 多重纳什均衡博弈的分析
帕累托上策均衡 风险上策均衡 相关均衡
2011-11-24
一、帕累托上策均衡
(鹰鸽博弈) 国家2 这个博弈中有两个纯策略 战争 和平 国 纳什均衡,(战争,战争) 家 战争 -5, -5 8, -10 和(和平,和平),显然 1 和平 -10, 8 10, 10 战争与和平 后者帕累托优于前者,所 以,(和平,和平)是本 博弈的一个帕累托上策均衡。
2011-11-24
帕累托最优(Pareto Optimality),也称为帕累 托效率(Pareto Efficiency是博弈论中的重要 概念,并且在经济学,工程学和社会科学中 有着广泛的应用。帕累托最优是指资源分配 的一种理想状态,即假定固有的一群人和可 分配的资源,从一种分配状态到另一种状态 的变化中,在没有使任何人境况变坏的前提 下,也不可能再使某些人的处境变好。换句 话说,就是不可能再改善某些人的境况,而 不使任何其他人受损。
2011-11-24
二、风险上策均衡
考虑、顾忌博弈方、其他博弈方可能发生错误等 时,帕累托上策均衡并不一定是最优选择,需要考虑: 风险上策均衡。下面就是两个例子。 猎人2
博 弈 U 方D 1 博弈方2 L R 9, 9 8, 0 0,8 7, 7 猎 5, 5 0, 3 人 鹿 3, 3 1 兔子 3, 0 猎鹿博弈 风险上策均衡(兔子,兔子) 鹿 兔子
风险上策均衡(D,R)
(U, L)是帕累托上策均 衡帕累托上策均衡并不是 有强制力的法则
2011-11-24
考虑风险因素,(D,R) 具有相对优势。称(D,R) 是风险上策均衡。
博 相关均衡 弈 U 5, 1 0, 0 方D 4, 4 1,5 两个纯策略纳什均衡利益相差很 1 大
,很难达成妥协,聚点均衡不适用。 相关均衡 混合策略纳什均衡[(1/2,1/2),(1/2,1/2)]的期 望得益为2.5。 均不理想,事前设计均衡选择机制。 如抛一匹硬币,出现正面博弈方1采用U,博弈方2采用L; 出现反面博弈方1采用D,博弈方2采用R。 避免(U,R) 出现,双方期望得益均为3。 进一步发展,设计“相关装置”,(1)该装置以相同的可能 性(各1/3)发出A、B、C三种信号;(2)博弈方1只能看到信 号是否A,博弈方2只能看到该信号是否C;(3)博弈方1看到A 采用U,否则采用D;博弈方2看到C采用R,否则采用L。 它排除(U,R),各以1/3的概率出现(U,L)、(U,D)和 (D,R),从而使双方的期望得益为10/3。 2011-11-24
博弈方2 L R
第二章 完全信息静态博弈
本章介绍完全信息静态博弈。完全信息静态博 弈即各博弈方同时决策,且所有博弈方对各方得益 都了解的博弈。囚徒的困境、齐威王田忌赛马、猜 硬币、石头剪子布、古诺产量决策都属于这种博弈。 完全信息静态博弈属于非合作博弈最基本的类型。 本章介绍完全信息静态博弈的一般分析方法、纳什 均衡概念、各种经典模型及其应用等。 基本特征:各博弈方同时选择策略,并且个博弈方有 关于得益的充分信息; 关键不是时间上的同步,而是在选择策略时不知其 他博弈方的策略
2011-11-24
2.1 基本分析思路和方法
2.1.1 上策均衡 2.1.2 严格下策反复消去法 2.1.3 划线法 2.1.4 箭头法
2011-11-24
2.1.1 上策均衡
上策:不管其它博弈方选择什么策略,一博弈方的 某个策略给他带来的得益始终高于其它的策略, 至少不低于其他策略的策略 如:囚徒的困境中的“坦白”;双寡头削价中“低价” 就是严格上策。 上策均衡:一个博弈的某个策略组合中的所有策略 都是各个博弈方各自的上策,必然是该博弈比较 稳定的结果 上策均衡不是普遍存在的,如:齐王赛马,赌胜博弈 或古诺产量的博弈中就没有上策均衡
2011-11-24
上策均衡反映了所有博弈方的偏好,因此 非常稳定.根据上策均衡可以对博弈结果 作出肯定的预测。 正是由于上策均衡不普遍存在,才正是 博弈理论的价值所在。
2011-11-24
2.1.2 严格下策反复消去法
严格下策:不管其它博弈方的策略如何变化, 给一个博弈方带来的收益总是比另一种策略 给他带来的收益小的策略 严格下策反复消去:
左 上 下 1,0 0,4 中 1,3 0,2 右 0,1 2,0 左 1,0 0,4 中 1,3 0,2 左 1,0 中 1,3
2011-11-24
2.1.3 划 线法
1, 0 0, 4 囚 徒 困 境 猜 硬 币 -5, -5 -8, 0 -1, 1 1, -1
策略之间的相对优劣关系,而 不是绝对优劣关系——划线法。
1, 3 0, 2 0, -8 -1, -1 1, -1 -1, 1 0, 1 2, 0 夫 妻 之 争 2, 1 0, 0 0, 0 1, 3
有时,划线也不能解决博弈的最终问题。
2011-11-24
2.1.4 箭头法
1, 0 0, 4 囚 徒 困 境 猜 硬 币
2011-11-24
1, 3 0, 2
0, 1 2, 0 夫 妻 之 争
-5, -5 -8, 0
0, -8 -1, -1
2, 1 0, 0
0, 0 1, 3
-1, 1 1, -1
1, -1 -1, 1
上述具有稳定性的策略中,不论是否唯一, 都有一个共同的特征,就是其中每个博弈方 的策略都是针对其他博弈方策略或策略组合 的最佳对策。
2.2 纳什均衡
2.2.1 纳什均衡的定义 2.2.2 纳什均衡的一致预测性质 2.2.3 纳什均衡与严格下策反复消去法
2011-11-24
纳什均衡(Nash Equilibrium)
纳什均衡是著名博弈论专家纳什 (John Nash)对博弈论的重要贡献之一。 纳什在
19世纪1950年1951年的两篇重要 论文中,在一般意义上给定了非合作博 弈及其均衡解,并证明了解的存在性。 正是纳什的这一贡献奠定了非合作博弈 论的理论基础。纳什所定义的均衡称之 谓“纳什均衡”。
2011-11-24
2.2.1 纳什均衡的 定义
S1 策略空间:, Sn s 博弈方 i的第 j个策略: i j S u 博弈方 i的得益: i G 博弈: {S1 ,Sn ; u1 ,un }
i
纳什均衡的实质:通俗地 说,纳什均衡含义就是:给 定你的策略,我的策略是最 好的策略;给定我的策略, 你的策略也是你最好的策略。 即双方在对方给定的策略下 不愿意调整自己的策略。
* ( s i* , s i*1 , s i*1 ,... s n )
纳什均衡:在博弈 G {S1 , S n ; u1 , u n } 中,如果由各个 * 博弈方的各一个策略组成的某个策略组合 ( si* , s n ) 中, 任一博弈方i 的策略,都是对其余博弈方策略的组合 * * ui ( si* , si*1 , si* , si*1 ,...sn ) ui ( si* , si*1 , sij , si*1 ,...sn ) 的最佳对策,也即 * 对任意s i j S i 都成立,则称 ( s i* , s n ) 为 G 的一个纳什均 衡
2011-11-24
诺贝尔经济学奖获得者萨缪 尔森有一句幽默的话: 你可以将一只鹦鹉训练成经 济学家,因为它所需要学习的 只有两个词:供给与需求。博 弈论专家坎多瑞引申说:要成 为现代经济学家,这只鹦鹉必 须再多学一个词,这个词就是 “纳什均衡”。由此可见纳什均 衡在现代经济学中的重要性。 纳什均衡不仅对经济学意义重 大,对其他社会科学意义也同 样重大。
2011-11-24
2.2.2 纳什均衡的一致预测性质
一致预测:如果所有博弈方都预测一个特定博弈 结果会出现,所有博弈方都不会利用该预测或者 这种预测能力选择与预测结果不一致的策略,即 没有哪个博弈方有偏离这个预测结果的愿望,因 此预测结果会成为博弈的最终结果 只有纳什均衡才具有一致预测的性质 一致预测性是纳什均衡的本质属性 一致预测并不意味着一定能准确预测,因为有 多重均衡,预测不一致的可能
2011-11-24
2.2.3 纳什均衡与严格下策反复消去法
. 1 : 上述两个命题保证在进行纳什均衡分析之前先通过严格 在 命 下策反复消去法简化博弈是可行的 n 题 个 2 博 . 弈 2 2011-11-24 方 :
s i ( ,
上策均衡肯定是纳什均衡,但纳什均衡不一定是上策 命 均衡。上策均衡是比纳什均衡更强、稳定性更高的均 题 衡概念,只是上策均衡在博弈问题中的普遍性比纳什 2 均衡要差得多。
i s i ( G S 1 { ,
G S 1 { ,
2.2.3 纳什均衡与严格下策反复消去法
上策均衡肯定是纳什均衡,但纳什均衡不一定是上策均衡
命题2.1:在n个博弈方的博弈
G {S1 , S n ; u1 , u n } 中,如 * * 果严格下策反复消去法排除了除 ( s i , s n ) 之外的所有 * 策略组合,那么 ( s i* , s n ) 一定是该博弈的唯一的纳什 均衡 命题2.2:在n个博弈方的博弈中 G {S1 , Sn ; u1 ,un } 中,如 * ( s i* , s n ) 是 的一个纳什均衡,那么严格下策反复 果 消去法一定不会将它消去 上述两个命题保证在进行纳什均衡分析之前先通过严 格下策反复消去法简化博弈是可行的
2011-11-24
混合战略纳什均衡
社会福利博弈
流浪汉 寻找工作 政府 2 救济 3, 1 不救济 -1, 没有一个战略组合构成纳什均衡 流浪 3 -1, 0 0,
2011-11-24
混合战略纳什均衡
零和博弈
博弈参与者有 输有赢,但结 果永远是0。 正面 正面 1 -1, -1 1, 反面 -1 1, 1 -1,
猜谜游戏
两个儿童各 拿一枚硬币, 若同时正面 朝上或朝下, A给B 1分 钱,
若只有一面 朝上,B给A 反面 1分钱。 2011-11-24 没有一个战略组合构成纳什均衡
混合战略纳什均衡
上述博弈的特征是:
在这类博弈中,都不存在纯纳什均衡。 参与人的支付取决于其他参与人的战略;以某种概 率分布随机地选择不同的行动 每个参与人都想猜透对方的战略,而每个参与人又 不愿意让对方猜透自己的战略。
这种博弈的类型是什么?如何找到均衡?
2011-11-24
混合战略纳什均衡
请举一些这样的例子:
石头、剪子、布游戏 杠子、老虎、鸡、虫子游戏 扑克游戏
2011-11-24
混合战略纳什均衡
猜谜游戏
两个小孩的最 优策略是采取每 个策略的可能性 均为1/2; 每个小孩各取 策略的1/2是纳 什均衡。
2011-11-24
零和博弈
正面 正面 反面 1 -1, -1 1,
反面 -1 1, 1 -1,
混合战略纳什均衡
战略:参与人在给定信息集的情况下选择行动的规 则,它规定参与人在什么情况下选择什么行动,是参 与人的“相机行动方案”。 纯战略:如果一个战略规定参与人在每一个给定的信 息情况下只选择一种特定的行动,该战略为 纯战略。
混合战略:如果一个战略规定参与人在给定信息情况 下以某种概率分布随机地选择不同的行 动, 2011-11-24 则该战略为混合战略。
混合战略纳什均衡
混合战略:如果一个战略规定参与人在给定信息情况 下以某种概率分布随机地选择不同的行动, 则该战略为混合战略。
在 n 个参与人博弈的战略式 表述: G S1, S 2, , S n; u1 , u 2 , , u n 中, 那么,概率分布 i i1, , ik
假定参与人 i有 K 个纯战略: S i si1 , sik , 称为 i的一个混合战略,这里 ik ( sik) 是 i选择 sik的概率,对于所
有的
2011-11-24
k 1, , K , ik 1, 1 ik 1。 0
k
混合战略纳什均衡
纯战略可以理解为混合战略的特例,即在诸多战略 中,选该纯战略si的概率为1,选其他纯战略的概率 为0。
小猪 按 等待 4,4 0,0
正面 正面
1 -1, -1
大猪
按
5,1
反面
-1 1, 1 -1,
等待 9,-1
2011-11-24
反面
1,
混合战略纳什均衡
如何寻找混合战略纳什均衡?
支付最大化法 支付等值法 由于混合战略伴随的是支付的不确定性,因此参与 人关心的是其期望效用。 最优混合战略:是指使期望效用函数最大的混合战 略(给定对方的混合战略) 在两人博弈里,混合战略纳什均衡是两个参与人的 最优混合战略的组合。
2011-11-24
支付最大 化法
混合战略纳什均衡
流浪汉
寻找工作 流浪
假定政府的混合战略是 G , ); ( 1 流浪汉的混合战略是 L , )。 ( 1 政府的期望效用函数为 : v( G, L) (3 1)(1 )) (
2
救济
3, 1 -1,
政府
不救济
3 -1, 0 0,
( 0 1 )( (1 )) (5 1)
同样,可以根据流浪汉 的期望效用函数找到政 2011-11-24 府的最优混合战
求微分,得到政府最优 化的一阶条件: vG 5 1 0 故 * 0 .2
即:流浪汉以0.2的概率选择寻 找工作,0.8的概率选择游荡
流浪汉 寻找工作的概率小于0.2
政府 概率为1:不救济
流浪汉 寻找工作
2011-11-24
政府 救济
纳什均衡存在性及相关讨论
纳什均衡存在性定理:每一个有限博弈至少
存在一个纳什均衡(纯战略的或混合战略的)。
2011-11-24
纳什均衡存在性及相关讨论
大流士阴谋推翻波斯王国的故事: 当时,一群波斯贵族聚在一起决定推翻国王,其间有人提议 休会,大流士此时站出来大声疾呼,说如果休会的话,就一 定会有人去国王那里告密,因为如果别人不那么做的话,他 自己就会去做,大流士说唯一的办法就是冲进皇宫,杀死国 王。 这个谋反的故事还提供了关于协调博弈的出路。在杀死国王 之后,贵族们想从自己人中推选出一个人当国王,他们决定 不自相残杀,而是在佛晓十分到山上去,谁的马先叫谁就当 国王。大流士的马夫在这场随机的安排中做了手脚,从而成 为国王。
2011-11-24
2.3 无限策略分析和反应函数
2.3.1 古诺的寡头模型 2.3.2 反应函数 2.3.3 伯特兰德寡头模型 2.3.4 公共资源问题 2.3.5 反应函数的问题和局限性
2011-11-24
2.3.1 古诺的寡头模型
寡头产量竞争——以两厂商产量竞争为例 Q q1 q2
P P (Q ) 8 Q
c1
c 2 2
u1 q1P(Q) c1q1 q1[8 (q1 q2 )] 2q1
6 q1 q1q2 q12
u2 q2P(Q) c2q2 q2[8(q1 q2 )]2q2
6q2 q1q2 q22
2011-11-24
2.3.2 反应函数
古诺模型的反应函数
q2
理性局 限和古 诺调整
max u1 max(6q1 q1q2 q12 )
q1
q1 R1 (q2 ) 1 (6 q2 ) 2 q2 R2 (q1 ) (6 q1 )
1 2
(0,6) (0,3)
R1 (q2 )
R2 (q1 )
(3,0) (6,0)
q1
古诺模型的反应函数图示
2011-11-24
2.3.2 反应函数
古诺模型的纳什均衡也可以通过对划线法思路 的推广来求,划线法的思路是先找出每个博弈方 针对其他博弈方所有策略(或策略组合)的最佳对 策,然后再找出相互构成最佳对策的各博弈方策 略组成的策略组合,也就是博弈的纳什均衡。 在无限策略的古诺博弈模型中这样的思路实际 上也是可行的,只是其他博弈方的策略现在有无限 多种,因此各个博弈方的最佳对策也有无限种,它 们之间往往构成一种连续函数关系。
2011-11-24
在上面讨论的两寡头古诺模型中,对厂商2的任 意产量q2 ,厂商1的最佳对策产量q1 ,就是使自己 在厂商2生产产量q2的情况下利润最大化的产量,即 q1是最大化问题:
max{q1 (6 q1 q2 )}
q1
的解。上式对q1求导并令导数等于0
u1 6 2q1 q2 0 q1 1 由此得: q1 R1 (q2 ) (6 q2 ) 2 2011-11-24
从图中可以看出,当一方的产量选择为0时,另一方的最佳 反应为3。这正是实现市场总利润最大的产量,因为这时候等于 由一个厂商垄断市场,市场总体利润就是该厂商的利益;当一 方的产量达到6时,另一方被迫选择0,因为这时后者坚持生产 已经无利可图。 在两个反应函数对应的两条直线上,只有它们的交点(2,2) 代表的产量组合,才是由相互对对方的最佳反应产量构成的。 q2 R1(q2)上的其他所有点(q1,q2) 只有q1是对q2的最佳反应,q2 不是对 6 R1 (q2 ) q1的最佳反应,而R2(q1)上的点则刚 好相反。 3 (2,2) 根据纳什均衡的定义,(2,2)是该古
诺模型的纳什均衡,并且因为它是惟的一 个,因此应该是该博弈的结果。这个结论 与前面直接根据纳什均衡定义得到的完 全—样。 2011-11-24
R2 (q1 )
3
6
q1
2.3.3 伯特兰德寡头模型
现在我们把反应函数法应用到伯特兰德模 型的分析。伯持兰德1883年提出了另一种形式 的寡占模型。这种模型与选择产量的古诺模型 的区别在于,伯特兰德模型中各厂商所选择的 是价格而不是产量。我们用简单的两寡头且产 品有一定差别的伯特兰德价格博弈模型进行分 析。
2011-11-24
上述产品有一定差别是指两个厂商生产的是 同类产品,但在品牌、质量和包装等方面有所不 同,因此伯特兰德模型中厂商的产品之间有很强的 替代性.
但又不是完全可替代,即价格不同时,价 格较高的不会完全销不出去。当厂商1和厂商2价格 分别为P1和P2时,它们各自的需求函数为:
q1 q1 P , P2 a1 b1P d1P2 1 1
和
q2 q2 P , P2 a2 b2 P2 d2 P 1 1
2011-11-24
从上式可以看出产品之间是有差别的,其中d1, d2>0即两厂商产品的替代系数。我们也假设两厂商 无固定成本,假设边际生产成本分别为c1和c2 。 两博弈方的得益函数分别为:
u1 P1 , P2 P1q1 c1q1 P1 c1 a1 b1 P1 d1 P2 u 2 P1 , P2 P2 q2 c2 q2 P2 c2 a2 b2 P2 d 2 P1
2011-11-24
我们直接用反应函数法分析这个博弈。上两式分 别对P1和P2求偏导,并令偏导数为0,由此得:
u1 a1 b1c1 2b1 P d1 P2 0 1 P 1 u2 a2 b2 c2 2b2 P2 d 2 P 0 1 P2
求出两厂商对对方策略(价格)的反应函数分别为:
1 P R1 ( P2 ) (a1 b1c1 d1 P2 ) 1 2b1 和
1 P2 R2 ( P ) (a2 b2 c2 d 2 P ) 1 1 2b2
2011-11-24
a1 (2b2 d1 ) * a2 (2b1 d 2 ) ,P2 P 4b1b2-d1d 2 4b1b2-d1d 2
* 1
将P1*,P2*代入得益函数则可进一步得到两厂商 的均衡得益值。 具体地,如果进一步假设模型中的参数分别为:
a1 a2 28,b1 =b2 =1 , d1=d 2=0.5,c1 =c2 =2
则可以得到: P1*=P2*=20, u1*=u2*=324。
2011-11-24
2.3.4 公共资源问题
随着社会经济的不断发展,我们越来越无法回 避公共资源利用、公共设施提供和公共环境保护等方 面的问题。而在这些问题中,也包含了众多的博弈关 系。我们以人们对公共资源利用方面的博弈关系为例 来作一些讨论。
2011-11-24
在经济学中,所谓公共资源是指具有: (1)没有哪个个人、企业或组织拥有所有权; (2)大家都可以自由利用,这样两个特征的自然资源或 人类生产的供大众免费使用的设施和财货。 例如大家都可以开采使用的地下水,可自由放牧 的草地,可自由排放废水的公共河道(假设政府未予限 制),以及公共道路、楼道的照明灯等。 由于公共资源有上述两个特征,因而利用这些 资源时不支付任何代价,除非政府将这些资源收归国 有,并对使用者征收资源税或收取类似的费用。
2011-11-24
经济学者们很早就己经开始认识到,在人们完全 从自利动机出发自由利用公共资源时,公共资源倾向 于被过度利用、低效率使用和浪费,并且过度利用会 达到任何利用它们的人都无法得到实际好处的程度。 我们用下面这个公共草地的放牧为例来论证这个结论。
设某村庄有n个农户,该村有一片 大家都可以自由放牧羊群的公共草地。 出于这片草地的面积有限,因此只能让 不超过某
一数量的羊群吃饱,如果在这 片草地上放牧羊只的实际数量超过这个 限度,则每只羊都无法吃饱,从而每只 羊的产出(毛、皮、肉的总价值)就会减 少,甚至只能勉强存活或要饿死。
2011-11-24
假设这些农户在夏天才到公共草地放羊,而每年春天就 要决定养羊的数量,因此可看作各农户在决定自己的养 羊数量时是不知道其他农户养羊数的,即各农户决定养 羊数的决策是同时作出的。 再假设所有农户都清楚这片公共草地最多能养多 少只羊和在羊只总数的不同水平下每只羊的产出。这 就构成了n个农户之间关于养羊数的一个博弈问题,并 且是一个静态博弈。 在此博弈中,博弈方就是n个农户;他们各自的策 略空间就是他们可能选择的养羊数目qi(i=1,2, …,n) 的取值范围。
2011-11-24
当各农户养羊数为q1、q2、… 、qn时,在公共草 地上放牧羊只的总数为Q=q1+q2+…+qn ,根据前 面的介绍,每只羊的产出应是羊群总数Q的减函数 V=V(Q)=V(q1,q2,… ,qn) 假设购买和照料每只羊的成本对每个农户都是相 同的不变常数c,则农户i养qi只羊的得益函数为:
u i qiV Q qi c qiV q1 q 2 q n qi c
为了使讨论比较简单和能得到直观的结论,我们 进一步设定下列具体数值。每只羊的产出函数为: V=100-Q=100-(q1+q2+……+ qn)
2011-11-24
假设n=3,即只有三个农户,成本c=4。这时, 三农户的得益函数分别为:
u1 =q1 (100 q1 q2 q3 ) 4q1 u2 =q2 (100 q1 q2 q3 ) 4q2 u3 =q3 (100 q1 q2 q3 ) 4q3
由于羊的数量不是连续可分的,田此上述 函数不是连续函数。但我们在技术上也可以把 羊的数量看作连续可分的,因此上述得益函数 仍然可当作连续函数来处理。
2011-11-24
分别求三农户各自对其他两农户策略(养 羊数)的反应函数,得:
1 1 q1 R1 (q2 , q3 ) 48 q2 q3 2 2 1 1 q2 R2 (q1 , q3 ) 48 q1 q3 2 2 1 1 q3 R3 (q1 , q2 ) 48 q1 q2 2 2
三个反应函数的交点 (q1*,q2*,q3*)就是博弈的纳什 均衡。我们将q1*,q2*,q3*代入上述应函数,并解此联立 方程组,即得q1*=q2*=q3*=24,再将其代入三农户的 得益函数,则可得u1*=u2*=u3*= 576,此即三农户独 立同时决定在公共草地放羊数量时所能得到的利益。
2011-11-24
如果各农户能将养羊数自觉限制在48/3=16只,则 他们都能得到更多的利益。但问题是他们面临的也是— 种囚徒的困境局面,因此很难实现这种理想的合作的结 果。这个例子再一次证明了纳什均衡,或者说非合作博 弈的结果有可能是低效率的。 在本例中,如果利用上述草地资源的农户数进一步 增加,则纳什均衡的效率会更
低;如允许外来者任意加 入利用该公共资源的行列,则所有利用该资源的人的利 益很决都会消失,即羊只总数会随着放牧农户数的增加 而增加到刚好不至于亏损的水平,各农户将完全不能从 在公共草地上养羊得到任何好处,公共资源等于完全被 浪费掉。
2011-11-24
2.4 混合策略和混合策略纳什均衡
2.4.1 严格竞争博弈和混合策略的引进 2.4.2 多重均衡博弈和混合策略 2.4.3 混合策略和严格下策反复消去法 2.4.4 混合策略反应函数
2011-11-24
2.4.1 严格竞争博弈和混合策略的 引进
一、猜硬币博弈 盖 硬 正 面 币 反 面 方 猜硬币方 正 面 反 面 -1, 1 1, -1 1, -1 -1, 1
(1)不存在前面定义的纳什均衡策略组合 (2)关键是不能让对方猜到自己策略 这类博弈很多,引出混合策略纳什均衡概念
2011-11-24
二、混合策略、混合策略博弈和混合策略纳 什均衡
混合策略:在博弈 G {S1,Sn ; u1 ,un }中,博弈方 i的策略 空间为 S i {si1 , sik } ,则博弈方i 以概率分布pi ( pi1 , p ik ) 个可选策略中选择的“策略”,称为一个“混合策 随机在其 k 略”,其中 0 p ij 1 对 j 1,, k 都成立,且p i1 p ik 1 混合策略扩展博弈:博弈方在混合策略的策略空间(概率 分布空间)的选择看作一个博弈,就是原博弈的“混合策 略扩展博弈)。 混合策略纳什均衡:包含混合策略的策略组合,构成纳什均 衡。
2011-11-24
齐威王田忌赛马
田 忌 上 上 上 上 上 上 中 中 中 中 中 中 下 下 下 下 下 下 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3 1,-1 1,-1 1,-1 1,-1 1,-1 -1,1 3,-3 1,-1 1,-1 1,-1 -1,1 1,-1 1,-1 3,-3 得益矩阵
2011-11-24
上中下 齐 上中下 威 上中下 王 上中下 上中下 上中下
小偷和守卫博弈
守卫 睡 不睡 小偷 偷不偷 V,-D -P,0 0,S 0,0
一小偷欲偷窃有一守卫看守的仓库,如果小偷偷窃 时守卫在睡觉,则小偷就能得手,偷得价值为V的 脏物;如果小偷偷窃时守卫没有睡觉,则小偷就会 被抓住。设小偷被抓住后要坐牢,负效用为-P, 守卫睡觉而未遭偷窃则有S的正效用,因睡觉被窃 要被解雇,其负效用为-D。而如果小偷不偷则他 既无得也无失,守卫不睡觉意味着出一份力赚一分 钱,他也没有得失。
2011-11-24
小偷和守卫的博弈
守卫 睡 不睡 小 偷 V,-D-P,0 偷 不偷 0,S 0,0
守卫 得益((睡)
S Pt* Pt* ’ 1 -D - D’
0
Pt 小偷 偷的概率
守卫睡的 期望得益 S(1-Pt)+(-D)Pt
加重对守卫的处罚:短期中的效果是使守卫真正尽职 在长期中并不能使守卫更尽职,但会降低盗
窃发生的概率
2011-11-24
小偷和守卫的博弈
守卫 睡 不睡 小 偷 V,-D-P,0 偷 不偷 0,S 0,0
小偷 得益(偷)
V Pg* 0 -P Pg* ’ 1
Pg 守卫 睡的概率
- P’
加重对小偷的处罚:短期内能抑制盗窃发生率 长期并不能降低盗窃发生率,但会是的守卫更多的偷懒
2011-11-24
当我们为减少盗窃率,加重对小偷的惩罚 时,最终的结果却带来了守卫的偷懒,形成了 一种政策目标和政策结果之间的意外关系,这 就被称为“激励的悖论”。 小偷偷东西,保安渎职。为了避免这种情 况,是加重对小偷的惩罚呢,还是加重对保安 的惩罚? 由此给我们带来什么启示? 执法,监督,等等
2011-11-24
纳什均衡的存在性
纳什定理:在一个由n个博弈方的博弈 G {S1 , Sn ; u1 ,un } 中,
n 如果n是有限的,且 S i 都是有限集(对 i 1,),则该博弈至 少存在一个纳什均衡,但可能包含混合策略。
纳什均衡的普遍存在性正是纳什均衡成为非合作博弈分析核 心概念的根本原因之一。
2011-11-24
2.6 纳什均衡的选择
多重纳什均衡博弈的分析
2011-11-24
2.6.1 多重纳什均衡博弈的分析
帕累托上策均衡 风险上策均衡 相关均衡
2011-11-24
一、帕累托上策均衡
(鹰鸽博弈) 国家2 这个博弈中有两个纯策略 战争 和平 国 纳什均衡,(战争,战争) 家 战争 -5, -5 8, -10 和(和平,和平),显然 1 和平 -10, 8 10, 10 战争与和平 后者帕累托优于前者,所 以,(和平,和平)是本 博弈的一个帕累托上策均衡。
2011-11-24
帕累托最优(Pareto Optimality),也称为帕累 托效率(Pareto Efficiency是博弈论中的重要 概念,并且在经济学,工程学和社会科学中 有着广泛的应用。帕累托最优是指资源分配 的一种理想状态,即假定固有的一群人和可 分配的资源,从一种分配状态到另一种状态 的变化中,在没有使任何人境况变坏的前提 下,也不可能再使某些人的处境变好。换句 话说,就是不可能再改善某些人的境况,而 不使任何其他人受损。
2011-11-24
二、风险上策均衡
考虑、顾忌博弈方、其他博弈方可能发生错误等 时,帕累托上策均衡并不一定是最优选择,需要考虑: 风险上策均衡。下面就是两个例子。 猎人2
博 弈 U 方D 1 博弈方2 L R 9, 9 8, 0 0,8 7, 7 猎 5, 5 0, 3 人 鹿 3, 3 1 兔子 3, 0 猎鹿博弈 风险上策均衡(兔子,兔子) 鹿 兔子
风险上策均衡(D,R)
(U, L)是帕累托上策均 衡帕累托上策均衡并不是 有强制力的法则
2011-11-24
考虑风险因素,(D,R) 具有相对优势。称(D,R) 是风险上策均衡。
博 相关均衡 弈 U 5, 1 0, 0 方D 4, 4 1,5 两个纯策略纳什均衡利益相差很 1 大
,很难达成妥协,聚点均衡不适用。 相关均衡 混合策略纳什均衡[(1/2,1/2),(1/2,1/2)]的期 望得益为2.5。 均不理想,事前设计均衡选择机制。 如抛一匹硬币,出现正面博弈方1采用U,博弈方2采用L; 出现反面博弈方1采用D,博弈方2采用R。 避免(U,R) 出现,双方期望得益均为3。 进一步发展,设计“相关装置”,(1)该装置以相同的可能 性(各1/3)发出A、B、C三种信号;(2)博弈方1只能看到信 号是否A,博弈方2只能看到该信号是否C;(3)博弈方1看到A 采用U,否则采用D;博弈方2看到C采用R,否则采用L。 它排除(U,R),各以1/3的概率出现(U,L)、(U,D)和 (D,R),从而使双方的期望得益为10/3。 2011-11-24
博弈方2 L R