博弈论基础
本讲要点:博弈论的基本思想,博弈的构成要素,简单博弈的求解方法,纳什均衡的概念,博弈的分类,动态博弈与重复博弈,信息不对称,道德风险,逆向选择,信号传递。
重 点:博弈论的基本思想,纳什均衡的概念,信息不对称。
难 点:博弈的构成要素,纳什均衡的概念。
一、博弈的基本要素
1、博弈论与古典经济学的区别
古典经济学的基本思路:给定约束条件,考虑行为主体的最优结果。
博弈论的基本思路:以行为主体之间的相互影响为前提,考虑行为主体的最优结果。
两者的根本区别:是否考虑对方的行为。
古典经济学中消费者行为理论:假定收入、商品价格以及效用函数给定,求最优消费组合。消费者A 不会考虑消费者B 的影响。
古典经济学中的厂商理论:假定生产函数、成本函数、商品价格给定,求厂商的最优生产决策。厂商A 不会考虑厂商B 的影响。
古典经济学中的宏观经济理论:假定一国的资源禀赋给定,考虑价格指数、利率等因素的变化对国民收入、就业等的影响。国家A 不会考虑国家B 的影响。 博弈论:每个人要考虑别人的行为怎样影响自己的选择。
扑克牌游戏:一个人不可能只顾自己出牌,而不考虑别人怎么出牌。
下棋:无论中国象棋、国际象棋、围棋,一个人在走某一步之前,都要考虑对手是怎么走的,以及对手在我走了一步之后会怎么走,以及我又会在对手走了一步之后怎么走,以至无穷。
高手与俗手的区别也就在此。高手往往能够考虑10步甚至20步以后的变化。 总之:你的输赢不仅取决于你的决策,而且取决于你对手的决策。
2、博弈论简史
博弈论的思路在古诺(Cournot,Antoine Augustin,1801-1977)的双头垄断模型中最早提出,冯•诺伊曼(John von Neumann,1903-1957)和摩根斯坦恩(Oskar Margenstern, 1902-1977)在1944年出版了《博弈论与经济行为》(Theory of Games and Economic Behavior )一书,最早提出了博弈论的概念。
现代博弈论则是由纳什(Nash, John F.)(有一本《美丽心灵》的书,专门介绍纳什和普林斯顿的,后改编为电影)、海萨尼(Harsany, John C. )、泽尔腾(Selten, Reinhard )、夏普利(Sharpley, Lloyd S.)等人发展起来的,1994年的诺贝尔经济学奖就授予了前三位经济学家。
现在,博弈论已经成为现代经济学的基本分析工具之一,并且应用到了政治、经济、军事、社会、自然科学等各个领域。
3、博弈的要素
构建一个博弈,需要以下基本要素:
(1)局中人(参与者)(players ):每局博弈至少有两个参与者。有时,要引入一个特殊的参与者,自然(nature )。比如,一个人猜硬币,可以看成是你在和自然或上帝博弈。
(2)行动集(action set ):规定每个参与者可以采取的行动的集合。比如,猜硬币博弈,一个人有两个行动可供选择:正面,反面。如果是两个硬币,则行动集中的行动增加一倍:(正面,正面),(正面,反面),(反面,正面),(反面,反面)。
(3)时序(playing sequence):游戏规则中规定的每个参与者决策的先后次序。一般来说,在静态博弈中,局中人同时行动;在动态博弈中,局中人有行动的次序。
(4)策略(strategies ):策略是局中人在一局博弈中的一套完整的行动计划。策略与行动不同,策略包括信息。比如囚徒困境,每个局中人的行动只有两种:坦白,抵赖。但策略就包括:(坦白,抵赖)、(抵赖,抵赖)、(抵赖,坦白)、(坦白,坦白)四种。尽管最后的均衡是(坦白,坦白),但策略有四种。
策略告诉局中人,在每一种可预见的情况下选择什么行动。
(5)报酬(支付、收益)(payoffs ):局中人在不同情况下所得到的效用。
(6)信息(information ):局中人决策所依据的信息。
信息分为完全信息和不完全信息。
在完全信息中,局中人在决策时知道在此之前的全部信息,并且局中人A 知道局中人B 知道全部信息,并且局中人A 知道局中人B 知道局中人A 知道全部信息,如此以至无穷。比如下棋。
在不完全信息中,局中人不知道与博弈有关的全部信息。比如猜“石头——剪刀——布”的游戏。
(7)结果(outcome ):结果是博弈分析者所感兴趣的所有东西,或者说,博弈分析者(建模者)从行动、支付和其他变量中所挑选出来的他感兴趣的要素的组合。比如,均衡战略组合,均衡行动组合,均衡支付组合等。
(8)均衡(equilibria ):均衡是所有局中人选取的最佳策略所组成的策略组合。 在上述要素中,局中人、行动集、时序、策略、报酬和信息规定了一局博弈的游戏规则。
下面以囚徒困境为例,分析以上各个要素。
囚徒乙
坦白 抵赖
坦白 囚徒甲
抵赖
在囚徒困境中,
局中人:囚徒A 和囚徒B ;
行动集:每个囚徒的行动集是一样的,都是(坦白,抵赖)。
时序:同时。
策略:每个囚徒的策略集也是一样的,都是(坦白,抵赖)、(抵赖,抵赖)、
(抵赖,坦白)、(坦白,坦白)。
报酬:(坦白,抵赖)=(0,-10)
(抵赖,抵赖)=(-1,-1)
(抵赖,坦白)=(-10,0)
(坦白,坦白)=(-6,-6)
信息:每个囚徒都知道上述报酬,并且也知道对方知道上述报酬。但每个囚徒在决策时不知道对方是怎么决策的。因为他们是同时决策的。而且只博弈一次。
结果:有四种可能的结果。
结果1:囚徒A 想,囚徒B 可能会选择抵赖,因为这是对双方来说最好的结果。囚徒A 是个无赖,他乘人之危,不顾同伙的命运,选择了坦白,这样,得到的结果是(坦白,抵赖)。
结果2:结果1中的囚徒B 和囚徒A 刚好倒过来,则得到的结果是(抵赖,坦白)。 结果3:囚徒A 想,囚徒B 可能会选择抵赖,因为这是对双方来说最好的结果。囚徒A 是个照顾朋友的人,他也选择抵赖,这样,得到的结果是(抵赖,抵赖)。
结果4:囚徒A 和B 互相不信任,则结果是(坦白,坦白)。
均衡:(坦白,坦白)。
4、更多的博弈例子
在上学期的教学中,介绍了“囚徒困境”博弈。现在再介绍几个著名的博弈。
(1)性别战(battle of the sexes)
设有一对恋人,男的喜欢看足球,女的喜欢看芭蕾,但两人更愿意在一起。
女
足球 芭蕾
足球 男
芭蕾 在这个博弈中,有两个均衡(足球,足
球)和(芭蕾,芭蕾)。
但完全可能出现(足球,芭蕾)或(芭蕾,足球)的结果。
(2)智猪博弈(boxed pigs)
设有两头猪,大猪和小猪。猪圈的一头是食槽,另一头是按键。按键的成本(劳动)为2。如大猪先到,吃9个单位,小猪吃1个单位;如小猪先到,吃4个单位,大猪吃6个单位;如同时到,大猪吃7个单位,小猪吃3个单位。
小猪
按 等待
按 大猪
等待
均衡的结果是:(按,等待)。
这个博弈可应用到(大股东,小股东),(庄家,散户),(大企业,小企业),(富人,穷人),(领导,下属)等。
(
3)斗鸡博弈(chicken game)
设有两人同时走到一条独木桥的中央。
B
进 退
进 A
退
这个博弈也有两个均衡:(进,退)、(退,进)。
冷战时期,美苏各占地盘,而不是在同一块地盘上争夺。
夫妻矛盾。
警察与游行队伍。
“两军相逢勇者胜”。政治上、军事上的强硬派往往能够出奇制胜,因为他们敢于“血战到底”。但如果对方不相信你是真正的勇士,或者,如果对方也是强硬派,则可能“两败俱伤”。
毛泽东的“敌进我退,敌退我进”游击战术。这是弱的时候的战略,后来,强大了,毛泽东又提出了“人不犯我,我不犯人;人若犯我,我必犯人”的战略。表述如下:
犯 不犯
犯 我
不犯
即,两个均衡:(犯,犯)、(不犯,不犯)。
(4)市场进入阻挠(entry deterrance)
设有两家企业,一家已在市场上,另一家想进入这个市场。进入成本为10。垄断利润为200
,寡头利润为100。
在位者
默许
斗争
进入 进入者
不进入
这个博弈也有两个均衡:(进入,默许)、(不进入,斗争)。
注意:(不进入,默许)虽然支付与(不进入,斗争)一样,但不是均衡。
(5)协调博弈(coordination game)
设甲乙两人去狩猎,如果合作捕杀老虎,则每人得到3;如合作捕杀野牛,则每人得到2;如不合作,则什么也得不到。成本(劳动)为1。
乙
虎 牛
虎 甲
牛
该博弈有两个均衡:(虎,虎)、(牛,牛)。一般来说,他们先碰上什么,就会合作去捕杀什么。
假如虎和牛同时出现,会怎样呢?
甲乙两人如果可以协商,则会选择(虎,虎)。但如果不能协商,则结果会是,看到对方去捕杀什么,就跟进。
如果把上述博弈改写一下,就得到所谓的“危险的协调”。
A B
A 甲
B
从理论上说,上面博弈的两个均衡解(A ,A )和(B ,B )中,虽然后者优于前者,但由于对于甲来说,一旦受到乙的欺骗,则损失惨重。所以,对于甲来说,更可能选择的是A 。
(6)诺曼底登陆
这是美国普林斯顿大学(现代博弈论奠基者John F. Nash 获得博士学位和工作的地方,纳什后来得了精神分裂症,普林斯顿宽容的环境以及妻子的爱护使纳什的病情奇迹般地好转。)1981年的博弈论课程中的一道练习题,模拟诺曼底登陆。
我方2个师的兵力,敌方3个师的兵力,只能整师调动。有两条进攻路线。我方兵力超过敌方,则获胜;我方兵力小于或等于敌方兵力,则我方负。问如何决策?
1944年,艾森豪威尔为总司令的盟国远征军经过近一年的准备,在英国集结了强大的军事力量,准备横渡英吉利海峡,在欧洲开辟第二战场。
当时可供盟军选择的登陆地点有两个,一是塞纳河东岸的布隆涅——加来——敦刻尔克一带,这里海峡最狭窄的地方只有几十公里,是一个理想的登陆地点;另一个地点是塞纳河西岸的诺曼底半岛,这里海面宽阔,渡海时间较长,容易被敌人发现。
当时德军的总兵力是58个师,比盟军略多。所获情报表明,德军在布隆涅一带的防守兵力多于在诺曼底的防守兵力,盟军拟以诺曼底为登陆点。
诺曼底登陆战本来是计划在6月5日打响的,但遇上了暴风雨。盟军参谋部预测在6月6日有一段时间的好天气,艾森豪威尔当机立断,决定冒险抓住这个机会,发起进攻。
6月6日凌晨两点,盟军的2个伞兵师空降道德军的防线后面,接着,飞机和军舰猛烈轰击德军的防御阵地,凌晨6点半,第一批地面部队登陆。
现在回到普林斯顿的博弈论练习题。
敌方有四种方案:
A 、三个师都驻守甲方向;
B 、反过来,三个师都驻守乙方向;
C 、两个师驻守甲方向,一个师驻守乙方向;
D 、反过来,一个师驻守甲方向,两个师驻守乙方向。
我方有三种方案:
a 、两个师从甲方向进攻;
b 、反过来,两个师从乙方向进攻;
c 、兵分两路,两个方向各派一个师进攻。
下面,我们用“+”表示获胜,用“-”表示失败,用上面大家熟悉的矩阵方式列于下面:
敌方
A B C D
a
我方 b
c
在上面的对策矩阵中,“-”表示“负”,“+”表示“胜”。
现在我们来分析敌方的策略选择。A 方案不如C 方案,B
方案不如D 方案。 所以,敌方不会选择A 、B 方案,于是,剔除掉这两个方案,得到下面的对策矩阵:
敌方
C D
a
我方 b
c
在剩下的对策矩阵中,再分析我方的策略选择。c 方案比a 、b 方案都要差,所以,要将c 方案剔除,得到下面的对策矩阵:
敌方
C D
a 我方
b
所以,最后的均衡是:敌方不可能把所有兵力驻守在一个方向,我方也不可能兵分两路进攻,在两个进攻方向上,如果我方攻在敌方的薄弱之处,则我方取胜,反之,若攻在敌方的强大之处,则我方失败。因此,信息就非常重要。
不仅信息重要,而且,信号传递、双方统帅的性格等因素也非常重要。有时,佯攻甲方向实攻乙方向;有时,给人佯攻甲方向而实际上就是进攻甲方向。等等。
对于企业、个人的发展来说,该博弈也有参考意义。对于弱势方来说,一般是集
中时间、精力和财力发展某一个方向,否则,只有失败。
二、优势策略与纳什均衡
1、优势策略
在囚徒困境中,不管乙的策略是坦白还是抵赖,甲的最优策略都是坦白;反之亦然。这种策略就叫优势策略(dominant strategy)。
那么,两个囚徒能不能暗自订立“攻守同盟”呢?
问题是,没有一个会相信对方的承诺是可信的。这叫“不可置信承诺”。
黑社会采取以下办法让承诺变得可以置信。黑社会对于供出同伙的人,往往采取“格杀”的惩罚。这样,囚徒困境就改写为:
囚徒乙
坦白 抵赖
坦白 囚徒甲
抵赖
这时,(抵赖,抵赖)就成了优势策略。
2、纳什均衡(Nash Equilibrium)
给定其他参与人的战略s -i *,参与人i 的战略s i *是优的,如果对于所有的参与人和参与人的所有的策略来说,下式成立:
u i (s i *,s -i *)≥u i (s i ,s -i *)
如果不等式严格成立,则成为严格优势策略。
3、优势策略与纳什均衡
优势策略肯定是纳什均衡,但纳什均衡不一定是优势策略。
在性别战、斗鸡博弈等博弈中,没有优势策略,但有两个纳什均衡。
4、博弈求解
一种方法是剔除劣势策略。比如在诺曼底登陆博弈中的做法。
但经常没有严格劣势的策略,比如性别战。
另一种方法是划线法:取每一种策略局中人最大的收益,在其支付下划线(或画圈),如果一个格中的两个支付都被划上线,则这个策略就是一个均衡。
复习上面讲过的博弈,用划线法求解。
5、博弈的分类
(1)静态(static)与动态(dynamic)
静态是指局中人同时决策或同时行动(simultaneous-move )。同时决策或同时行动不是指的时间上完全一致,而是指每个参与者不知道其他参与者的决策或行动。
比如囚徒困境,也许两个囚徒的坦白时间是不同的,但互相不知到对方是否坦白,所以是同时行动。
再比如工程招标,不同的投标者投标的时间也许不同,但只要互相不知道对方的报价,则是同时行动。
如果局中人的决策或行动按照规则是有先后次序的(sequential-move ),则是动态博弈。后面要进行简单介绍。
(2)完全信息(complete information) 与不完全信息(incomplete information)
完全信息是指各种策略组合下局中人的支付函数是所有局中人的共同知识(common knowledge)。
(3)完美信息(perfect information)与不完美信息(imperfect information)
完美信息是指局中人完全清楚到他决策时为止所有局中人的所有决策,或者说,了解博伊进行的历史。
(4)博弈的分类
博弈可分为以下几种基本的大类:
完全信息静态博弈(static games of complete information)
完全信息动态博弈(dynamic games of incomplete information)
不完全信息静态博弈(static games of complete information)
不完全信息动态博弈(dynamic games of incomplete information)
如果把信息完美与否考虑进来,则有:
完全且完美信息博弈(games of complete and perfect information)
完全但不完美信息博弈(games of complete but imperfect information)
不完全但完美信息博弈(games of incomplete but perfect information)
不完全且不完美信息博弈(games of incomplete and imperfect information)
只有动态博弈才考虑完美或不完美信息。
注意,在英语中,(不)完全信息博弈与(不)完美信息博弈的表达有细微的区别:games of complete information与games with perfect information。
另外,根据局中人支付的情况,又有以下分类:
零和博弈(zero-sum game)和非零和博弈(non-zero-sum game)。
常和博弈(constant-sum game)和变和博弈(variable-sum game)。
做一定的数学处理,可以把常和博弈处理成零和博弈。
变和博弈包含一个很重要的哲理:双赢(win-win )。
当然,也有共亏的局面,如囚徒困境,这也是一个重要的课题:个人理性与集体理性的矛盾。
三、动态博弈与重复博弈
1、动态博弈
前面讨论的博弈有两个共同特点:一,只博弈一次,博弈结束;二,博弈双方同时行动。这是静态博弈。
在动态博弈中,博弈双方进行多次博弈。比如下棋,你下一步,我下一步,这就是一个动态博弈。
动态博弈一般采用博弈树的形式表达,如以下博弈:
“利益一致”的“抓钱博弈”
“你死我活”的“抓钱博弈”
“温和对抗”的“抓钱博弈”
动态博弈采用“逆向归纳法”求解。
逆向归纳法(backward induction ):也称倒推法(rollback method) ,从博弈的最后一个决策阶段开始分析,确定该阶段局中人的策略选择;然后再确定前一阶段局中人的策略选择,一直推到起始点。
现在我们来分析前面的“抓钱博弈”。
在利益一致的博弈中,第4阶段由乙决策:乙如果拿,只能得到4,而如果不拿,则进入下一结点,得到支付5,所以乙选择不拿。
到第3阶段,由甲来决策,同样,甲会选择“不拿”。
所以,该博弈的均衡是:在前面几个阶段,甲乙都选择“不拿”,直到进入最后的结点,每人得到5的支付。
在“你死我活”的博弈中,在第4阶段,乙如果选择不拿,则进入最后的结点,得到0的支付;而如果选择拿,则得到8的支付,于是,选择拿,博弈结束。
到第3阶段,甲知道乙会在下一阶段会选择拿,因此,自己在本阶段的最有选择也是拿,一直倒推到起点。本博弈的均衡是:甲一开始就选择拿,博弈结束。
在温和对抗的博弈中,第4阶段由乙选择,若选择拿,得到支付5,若选择不拿,得到支付4,所以,乙选择拿,博弈结束。
到第3阶段,甲知道乙在第4阶段会选择拿,甲若选择不拿,只能得到3,而选择拿,则得到4。所以,甲的选择也是拿,博弈结束。本博弈的均衡也是:甲一开始就选择拿,博弈结束。
2、重复博弈
重复博弈(repeated game)是指同一博弈重复多次。
一次博弈中存在的欺骗,可能在重复博弈中消除。典型的例子是游贩和坐摊的区别。游贩与买者之间因为是一次性博弈,往往采用欺骗的办法;而坐摊与买者之间是重复博弈,所以,能够诚信经商。
重复博弈之所以能够消除欺骗,是因为存在报复。比如坐摊,买者会采取报复手段:你如果卖了假冒伪劣商品给我,那我,一,会回来找你的麻烦,要求赔偿,甚至告发你的不正当行为;二,我今后再也不到你这里买东西。
现在以囚徒困境为例,分析无穷次重复博弈的结果。
所谓无限次重复,是指局中人不知道会重复多少次,而不一定是真正的无穷多次。
囚徒乙
坦白 抵赖
坦白 囚徒甲
抵赖
两个囚徒都知道,大家保持沉默(抵赖)是集体利益最大的选择。但正如前面所说的,如果只是一次性博弈,则(坦白,坦白)是均衡的结果。
我们选择囚徒困境的另一种情况来说明比较好,因为严格的囚徒困境会限制博弈
的次数,因为一个人的生命是有限的。
比如抛硬币博弈,如果甲乙两人都出正面,则1人得到1元的奖赏,如果两人都出反面,则1人得到3元的奖赏,如果不同,则出正面的得到4元的奖赏,出反面的没有奖赏。得到下面的博弈矩阵:
乙
正面 反面
正面 甲
反面
双方都知道出反面最好,所以,假定开始的时候大家都承诺要出反面。但这样的承诺是否可信呢?如果只是一次行博弈,则这样的承诺是不可信的,因为每个人有改变策略的驱动。
现在是无穷多次重复博弈,双方都知道,如果对方发现我上次出正面,那他就不会相信我的话了,今后就会出正面进行报复。也就是说,我只能占一次便宜;而对方也只会吃一次亏。从长远利益考虑,我的最优选择是信守承诺,出反面。
假定是n 次博弈,局中人的计算是:
如果我前面m 次出反面,第m+1次违背承诺出正面,那么我的支付是3m+(n-m),而如果一直出反面,则支付是3n ,显然3n>3m+(n-m)。所以,我会选择一直出反面。
当然,如果知道n 的确切数值,则狡猾的局中人会在最后一次改变策略,出正面,希望得到3(n-1)+4的支付,因为3(n-1)+4>3n。
但问题是,对方也不是笨蛋。
所以,只有当n 为不确切的数值时,双方才会信守承诺。
四、信息经济学的基本问题
1、信息不对称(asymmetric information)
信息不对称:一方拥有的信息对方不知道。比如说,经理人是否努力工作,经理人自己最清楚,老板不一定清楚。
所以,设计机制或合约时,一定要以可证实的变量为基础。比如,工作是否努力是不可证实的。
至于目前各单位采用的许多变量,比如“政治上与党中央保持高度一致”、“廉洁奉公”、“努力学习”等等,都是不可证实的变量。因此,靠这些条件来考核,是不能真正考核出优劣的。
为什么会出现“会做的不如会写的,会写的不如会编的,会编的不如会唱的,会唱的不如会吹的”这样的结果?就是因为设计机制或合约时所依据的变量是不可证实的。
相对于“努力工作”来说,“工作业绩”(如销售收入、利润、成本)等是可证实的。
高校排名,评价的指标中主要是可证实的变量,如资产规模、教授数、学术论文、论著、科研经费等。
设想一下,如果是采取一些不可证实的变量来排名,则恐怕谁也不服谁。
同样,教师不能完全以是否努力学习来评判学生,而需要采用成绩。这就是为什么不论哪个国家都要进行考试的原因。
在信息不对称的情况下,主要有道德风险、逆向选择、信号传递等基本问题。
moral hazard)
亚当•斯密(1776)在《国富论》中就已经意识到了道德风险的存在,只是没有采用这样一个名词。
“无论如何,由于这些公司的董事们是他人钱财而非自己钱财的管理者,因此很难设想他们会像私人合伙者照看自己钱财一样地警觉,所以,在这类公司事务的管理中,疏忽和浪费总是或多或少地存在的。”
道德风险是指从事经济活动的人在最大限度地增进自身效用时作出不利于他人的行动。
道德风险存在于信息不对称、合同不完备、合同实施成本过大等情况下。
信息不对称:由于一个人拥有私人信息,就占有信息优势,从而可以找机会偷懒或不负责任。
在委托-代理问题中,代理人具有委托人不知道的私人信息。
合同不完备:由于人们的知识和预测能力是有限的,不可能把所有可能发生的情况都写进合同中。
合同实施成本过大:即便能够把所有可能情况都写进合同中,由于实施成本过大,往往也难以完全实施。
总之,由于信息不对称、合同不完备、合同实施成本等原因,人们往往宁愿接受由于道德风险所带来的损失。因为搜寻信息需要成本、制订完备合同需要成本、完全实施合同需要成本,当这些成本高于因道德风险造成的损失时,就选择任由道德风险的存在。
所以,在委托人-代理人之间,往往寻求的是一种均衡,当监督和签订、实施合同的边际成本等于道德风险的边际成本时,均衡就形成了。
3、逆向选择(adverse selection)
经济学家阿克洛夫(Akerlof, George)在1970年发表的论文“次品市场”(The Market of Lemons,Quarterly Journal of Economics,84(3),August,488-500)中首次从现代经济学的角度对逆向选择进行了分析。
在二手车市场上,卖者对车的质量占有信息优势。假定有好、中、差三种车,对于卖者来说,这三种车的价值分别为11000美元、8000美元、5000美元;对于买者,这三种车的价值分别为12000美元、9000美元、6000美元。
如果信息是对称的,则三种车都有可能成交,比如,这三种车在11500美元、8500美元、5500美元的价值成交,对买卖双方都是有利的。
然而,由于信息不对称,买方不知道哪种车是好的,哪种车是差的,只能采取概率的方法。
假定三种车出现的概率相等,都为1/3。这样,对于买方来说,旧车的期望价值为:12000*1/3+9000*1/3+6000*1/3=9000美元。
于是,买方愿意出的最高价格为9000美元。
这样,卖方就不可能出售价值为11000美元的好车。于是,好车就退出市场。剩下的是中、差两种车。
买方当然也知道这点,于是,重新修改预期价值:9000*1/2+6000*1/2=7500美元。 于是,买方现在愿意出的最高价格为7500美元。
这样,卖方就不愿意出售价值8000美元的中等车,中等车也退出市场。
最后,市场上剩下的是最差的车。
这就是逆向选择。
逆向选择的例子很多,比如保险市场、劳动力市场、货币市场等。
保险市场:愿意参加保险的人很可能是身体有问题的人。身体是否有问题,投保人比保险公司更清楚,也就是说,投保人具有私人信息。保险公司知道这点,就把保险费定得很高,这样,身体好的人就更不愿参加保险,这部分人就退出了市场。所以,热衷于买保险的人往往是身体不好或年龄较大的人。
劳动力市场:劳动者的能力是劳动者的私人信息。所以,企业愿意出的工资是一个平均数,这样,能力特别强的人就会退出这个市场。所以,在一般劳动力市场上的往往是能力中等或能力差的人。
但企业又需要能力强的人,于是就有了猎头市场。企业把识别劳动者能力的任务交给猎头公司,并且猎头公司要承担风险。
货币市场:项目是否有风险是借款人的私人信息。所以,贷款人对贷款利率的出价是一个平均风险水平的价格,这样,风险低、收益低的稳定型借款者就会退出市场。所以,银行的坏账一天天增加。
4、信号传递
由于信息不对称,每个人都希望向对方传递对自己有利的信号。
比如,在招聘时,应聘者总是显示自己最好的一面。谈判中,企业总是把最能显示自己实力的一面展示出来。公司越来越注意企业形象的塑造。女孩子总是把自己打扮得漂亮。人们总是把最好的衣服穿在外面。等等。
问题是,对方不一定相信你所传递的信号是真实的。
有的信号,一下子是难以识别真伪的,需要时间。所以,“百年老店”是最好的信号传递方式。
曾经有几家美国的企业联合控告日本公司倾销,美国法院的判决是:控告不成立,因为不可能有哪家公司能够长期采用低于成本的价格。
所以,长期采取低价策略的企业传递的信号是:我是低成本的,你成本高,别来。
长期在CCTV 黄金时段做广告的厂商传递的信号是:我有实力,企业经营一直不错。
出示自己的高学历证书和各种获奖证书的求职者传递的信号是:我是一个优秀的应聘者。
有的小公司对业务采取不冷不热的态度,传递的信号是:我不愁没业务做。 故意装着要离开的顾客传递的信号是,把价格再降点,否则我走了。
初恋时经常找不怎么符合逻辑的借口去找对方但又不说出口,传递的信号是,我对你有意思,你呢?当然指望是对方先说出来。
由于对方不一定相信你传递的信号,而甄别信号需要成本,所以,一定要传递可信(可观测)、并且甄别成本低的信号。
为什么招聘单位看重学历,因为学历容易甄别,而且比起能力的描述来,相对可靠。
为什么顾客喜欢买名牌产品,因为名牌是经过很多年才形成的,广告、产品质量、服务质量等因素起了很大的作用,名牌传递的信号就是:质量好,服务好。
注意:无论发出信号或不发出信号,都是一种信号传递。
复习
1.博弈论与古典经济学的区别在于,前者考虑行为人的相互影响。
2.博弈论现在得到了很快的发展,已经在经济、政治、社会、文化、自然科学等领域得到了广泛的应用。
3.一个完整的博弈要有局中人、行动集、时序、策略、支付、信息等要素来刻画,不同的博弈构建者可能对各种要素的不同组合感兴趣。
4.囚徒困境是最著名的一个博弈,它揭示了个体理性与集体理性的矛盾。要改变囚徒困境的结局,需要改变博弈的规则。
5.纳什均衡是描述博弈均衡的一个非常重要的概念,指的是一种相对稳定的状态,在局中人的策略组合下,没有人愿意单独改变自己的行动。一个博弈可能有多个纳什均衡。
6.优势策略是指无论对方采取什么行动,我都将采取的策略。比如囚徒困境中的“坦白”。优势策略肯定构成纳什均衡,但纳什均衡不一定是优势策略。
7.根据局中人的支付函数是否是共同知识,以及是否同时决策,可以把博弈分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。
8.完美信息和不完美信息的区分依据是,局中人对前面对局的情况是否清楚。
9.动态博弈采取博弈树的方法来表示。博弈树的方法也叫博弈的展开式。求解动态博弈的方法之一是逆向归纳法,或倒推法,即从最后一个结点开始往前面推导。
10.重复博弈是指不断重复某一博弈。重复博弈可能会改变一次博弈的均衡。重复博弈是动态博弈的一种。
11.信息不对称是指某一局中人占有私人信息,从而占有信息优势。
12.在不对称信息条件下,协议签订前有逆向选择和信号传递问题,协议签订后有道德风险问题。
13.道德风险是指占有信息优势的一方在最大化自己利益的同时采取不利于他人利益的策略。
14.逆向选择是指信息不对称的市场会把优秀的资源赶出局,而不是把低劣的资源淘汰掉。
15.信息优势方总是传递对自己有利的信号,而信息劣势方不会轻易相信,所以,最后的均衡是:传递可观测的、甄别成本低的信号。
进一步阅读
对本讲内容有兴趣的同学可进一步阅读以下文献:
周惠中,2003:《微观经济学》,第13章,第14章,上海人民出版社
(因为是在“微观经济学”中讲述博弈论和信息经济学的有关知识,所以,内容的选择和难易程度比较适中,有“点到为止”的感觉,适合本科生阅读。)
张维迎,1996:《博弈论与信息经济学》,“0. 导论”,“7. 逆向选择与信号传递”,上海三联书店,上海人民出版社
(这是国内最早介绍博弈论和信息经济学的著作,到2004年,已先后印刷8次,印数超过5万,是国内经济学著作中的“畅销书”,引用率极高,几乎所有涉及博弈论和信息经济学的文献都要引用张维迎的这本著作。这本书的难度较大,但张维迎在书中创造了一些“中国特色”的例子,值得一读。而且,中国人自己写的书,比那些蹩脚的译本要容易读懂些。顺便提一下,国人所著的博弈论的书,还有上海财大施锡铨写的《博弈论》、复旦谢识予的《经济博弈论》等,都是不错的书。)
王则柯、李杰,2004:《博弈论教程》,中国人民大学出版社
(中山大学王则柯教授最新为本科生写的教材,难度适中,主要讲完全信息博弈,有一定数学基础的同学都可以看懂。)
Macho-Stadler,I.,and J.David Perez-Castrillo,2004:《信息经济学引论:激励与合约》,“1. 导论”,上海财经大学出版社
(这本书对“道德风险”、“逆向选择”、“信号传递”三个问题作了专门的分析,但对于本科生来说难度较大。)
Dixit,A.K.,and Barry J.Nalebuff,2002:《策略思维》,中国人民大学出版社
(这是最通俗易懂的一本介绍博弈论的著作,书中很少使用数学,采用的案例来自于电影、小说、传记、日常生活等各个方面。这本书的译者是王则柯先生的女儿王尔山,与乃父比,文笔有更胜一筹之感。)
Akerlof,George,1970.The market for lemons. Quarterly Journal of Economics ,84(3), August, 488-500
(这篇文章可以在我的个人网页(http://web.cenet.org.cn/web/winninghu)的“下载资源”栏中找到,英语较好的同学,不妨一读。这篇文章没用什么数学,完全可以
读懂。据说,当初就是因为该文的数学少,而遭到了杂志社的退稿。)
Wilson,Charles. “逆选择(adverse selection)”,《新帕尔格雷夫经济学大辞典》,第1卷,第35-6页
Postlewaite, A.“非对称信息(asymmetric information)”,《新帕尔格雷夫经济学大辞典》,第1卷,第144-5页
Kotowitz, Y.“道德风险(moral hazard)”,《新帕尔格雷夫经济学大辞典》,第3卷,第588-91页
Riley,J.G . “发送信号(signalling )”,《新帕尔格雷夫经济学大辞典》,第4卷,第355-8页
习题
1、把“田忌赛马”的故事改编为一个博弈,并用博弈矩阵表示出来。
2、把“老虎-鸡-虫-棒棒”的游戏改编成一个博弈,并用博弈矩阵表示出来。
3、分别用剔除劣势策略法和划线法找出以下博弈的纳什均衡,这个博弈有没有严格优势策略?
局中人2
L R
U
局中人2 M
D
4、用逆向归纳法求出下面博弈的均衡解。
博弈论基础
本讲要点:博弈论的基本思想,博弈的构成要素,简单博弈的求解方法,纳什均衡的概念,博弈的分类,动态博弈与重复博弈,信息不对称,道德风险,逆向选择,信号传递。
重 点:博弈论的基本思想,纳什均衡的概念,信息不对称。
难 点:博弈的构成要素,纳什均衡的概念。
一、博弈的基本要素
1、博弈论与古典经济学的区别
古典经济学的基本思路:给定约束条件,考虑行为主体的最优结果。
博弈论的基本思路:以行为主体之间的相互影响为前提,考虑行为主体的最优结果。
两者的根本区别:是否考虑对方的行为。
古典经济学中消费者行为理论:假定收入、商品价格以及效用函数给定,求最优消费组合。消费者A 不会考虑消费者B 的影响。
古典经济学中的厂商理论:假定生产函数、成本函数、商品价格给定,求厂商的最优生产决策。厂商A 不会考虑厂商B 的影响。
古典经济学中的宏观经济理论:假定一国的资源禀赋给定,考虑价格指数、利率等因素的变化对国民收入、就业等的影响。国家A 不会考虑国家B 的影响。 博弈论:每个人要考虑别人的行为怎样影响自己的选择。
扑克牌游戏:一个人不可能只顾自己出牌,而不考虑别人怎么出牌。
下棋:无论中国象棋、国际象棋、围棋,一个人在走某一步之前,都要考虑对手是怎么走的,以及对手在我走了一步之后会怎么走,以及我又会在对手走了一步之后怎么走,以至无穷。
高手与俗手的区别也就在此。高手往往能够考虑10步甚至20步以后的变化。 总之:你的输赢不仅取决于你的决策,而且取决于你对手的决策。
2、博弈论简史
博弈论的思路在古诺(Cournot,Antoine Augustin,1801-1977)的双头垄断模型中最早提出,冯•诺伊曼(John von Neumann,1903-1957)和摩根斯坦恩(Oskar Margenstern, 1902-1977)在1944年出版了《博弈论与经济行为》(Theory of Games and Economic Behavior )一书,最早提出了博弈论的概念。
现代博弈论则是由纳什(Nash, John F.)(有一本《美丽心灵》的书,专门介绍纳什和普林斯顿的,后改编为电影)、海萨尼(Harsany, John C. )、泽尔腾(Selten, Reinhard )、夏普利(Sharpley, Lloyd S.)等人发展起来的,1994年的诺贝尔经济学奖就授予了前三位经济学家。
现在,博弈论已经成为现代经济学的基本分析工具之一,并且应用到了政治、经济、军事、社会、自然科学等各个领域。
3、博弈的要素
构建一个博弈,需要以下基本要素:
(1)局中人(参与者)(players ):每局博弈至少有两个参与者。有时,要引入一个特殊的参与者,自然(nature )。比如,一个人猜硬币,可以看成是你在和自然或上帝博弈。
(2)行动集(action set ):规定每个参与者可以采取的行动的集合。比如,猜硬币博弈,一个人有两个行动可供选择:正面,反面。如果是两个硬币,则行动集中的行动增加一倍:(正面,正面),(正面,反面),(反面,正面),(反面,反面)。
(3)时序(playing sequence):游戏规则中规定的每个参与者决策的先后次序。一般来说,在静态博弈中,局中人同时行动;在动态博弈中,局中人有行动的次序。
(4)策略(strategies ):策略是局中人在一局博弈中的一套完整的行动计划。策略与行动不同,策略包括信息。比如囚徒困境,每个局中人的行动只有两种:坦白,抵赖。但策略就包括:(坦白,抵赖)、(抵赖,抵赖)、(抵赖,坦白)、(坦白,坦白)四种。尽管最后的均衡是(坦白,坦白),但策略有四种。
策略告诉局中人,在每一种可预见的情况下选择什么行动。
(5)报酬(支付、收益)(payoffs ):局中人在不同情况下所得到的效用。
(6)信息(information ):局中人决策所依据的信息。
信息分为完全信息和不完全信息。
在完全信息中,局中人在决策时知道在此之前的全部信息,并且局中人A 知道局中人B 知道全部信息,并且局中人A 知道局中人B 知道局中人A 知道全部信息,如此以至无穷。比如下棋。
在不完全信息中,局中人不知道与博弈有关的全部信息。比如猜“石头——剪刀——布”的游戏。
(7)结果(outcome ):结果是博弈分析者所感兴趣的所有东西,或者说,博弈分析者(建模者)从行动、支付和其他变量中所挑选出来的他感兴趣的要素的组合。比如,均衡战略组合,均衡行动组合,均衡支付组合等。
(8)均衡(equilibria ):均衡是所有局中人选取的最佳策略所组成的策略组合。 在上述要素中,局中人、行动集、时序、策略、报酬和信息规定了一局博弈的游戏规则。
下面以囚徒困境为例,分析以上各个要素。
囚徒乙
坦白 抵赖
坦白 囚徒甲
抵赖
在囚徒困境中,
局中人:囚徒A 和囚徒B ;
行动集:每个囚徒的行动集是一样的,都是(坦白,抵赖)。
时序:同时。
策略:每个囚徒的策略集也是一样的,都是(坦白,抵赖)、(抵赖,抵赖)、
(抵赖,坦白)、(坦白,坦白)。
报酬:(坦白,抵赖)=(0,-10)
(抵赖,抵赖)=(-1,-1)
(抵赖,坦白)=(-10,0)
(坦白,坦白)=(-6,-6)
信息:每个囚徒都知道上述报酬,并且也知道对方知道上述报酬。但每个囚徒在决策时不知道对方是怎么决策的。因为他们是同时决策的。而且只博弈一次。
结果:有四种可能的结果。
结果1:囚徒A 想,囚徒B 可能会选择抵赖,因为这是对双方来说最好的结果。囚徒A 是个无赖,他乘人之危,不顾同伙的命运,选择了坦白,这样,得到的结果是(坦白,抵赖)。
结果2:结果1中的囚徒B 和囚徒A 刚好倒过来,则得到的结果是(抵赖,坦白)。 结果3:囚徒A 想,囚徒B 可能会选择抵赖,因为这是对双方来说最好的结果。囚徒A 是个照顾朋友的人,他也选择抵赖,这样,得到的结果是(抵赖,抵赖)。
结果4:囚徒A 和B 互相不信任,则结果是(坦白,坦白)。
均衡:(坦白,坦白)。
4、更多的博弈例子
在上学期的教学中,介绍了“囚徒困境”博弈。现在再介绍几个著名的博弈。
(1)性别战(battle of the sexes)
设有一对恋人,男的喜欢看足球,女的喜欢看芭蕾,但两人更愿意在一起。
女
足球 芭蕾
足球 男
芭蕾 在这个博弈中,有两个均衡(足球,足
球)和(芭蕾,芭蕾)。
但完全可能出现(足球,芭蕾)或(芭蕾,足球)的结果。
(2)智猪博弈(boxed pigs)
设有两头猪,大猪和小猪。猪圈的一头是食槽,另一头是按键。按键的成本(劳动)为2。如大猪先到,吃9个单位,小猪吃1个单位;如小猪先到,吃4个单位,大猪吃6个单位;如同时到,大猪吃7个单位,小猪吃3个单位。
小猪
按 等待
按 大猪
等待
均衡的结果是:(按,等待)。
这个博弈可应用到(大股东,小股东),(庄家,散户),(大企业,小企业),(富人,穷人),(领导,下属)等。
(
3)斗鸡博弈(chicken game)
设有两人同时走到一条独木桥的中央。
B
进 退
进 A
退
这个博弈也有两个均衡:(进,退)、(退,进)。
冷战时期,美苏各占地盘,而不是在同一块地盘上争夺。
夫妻矛盾。
警察与游行队伍。
“两军相逢勇者胜”。政治上、军事上的强硬派往往能够出奇制胜,因为他们敢于“血战到底”。但如果对方不相信你是真正的勇士,或者,如果对方也是强硬派,则可能“两败俱伤”。
毛泽东的“敌进我退,敌退我进”游击战术。这是弱的时候的战略,后来,强大了,毛泽东又提出了“人不犯我,我不犯人;人若犯我,我必犯人”的战略。表述如下:
犯 不犯
犯 我
不犯
即,两个均衡:(犯,犯)、(不犯,不犯)。
(4)市场进入阻挠(entry deterrance)
设有两家企业,一家已在市场上,另一家想进入这个市场。进入成本为10。垄断利润为200
,寡头利润为100。
在位者
默许
斗争
进入 进入者
不进入
这个博弈也有两个均衡:(进入,默许)、(不进入,斗争)。
注意:(不进入,默许)虽然支付与(不进入,斗争)一样,但不是均衡。
(5)协调博弈(coordination game)
设甲乙两人去狩猎,如果合作捕杀老虎,则每人得到3;如合作捕杀野牛,则每人得到2;如不合作,则什么也得不到。成本(劳动)为1。
乙
虎 牛
虎 甲
牛
该博弈有两个均衡:(虎,虎)、(牛,牛)。一般来说,他们先碰上什么,就会合作去捕杀什么。
假如虎和牛同时出现,会怎样呢?
甲乙两人如果可以协商,则会选择(虎,虎)。但如果不能协商,则结果会是,看到对方去捕杀什么,就跟进。
如果把上述博弈改写一下,就得到所谓的“危险的协调”。
A B
A 甲
B
从理论上说,上面博弈的两个均衡解(A ,A )和(B ,B )中,虽然后者优于前者,但由于对于甲来说,一旦受到乙的欺骗,则损失惨重。所以,对于甲来说,更可能选择的是A 。
(6)诺曼底登陆
这是美国普林斯顿大学(现代博弈论奠基者John F. Nash 获得博士学位和工作的地方,纳什后来得了精神分裂症,普林斯顿宽容的环境以及妻子的爱护使纳什的病情奇迹般地好转。)1981年的博弈论课程中的一道练习题,模拟诺曼底登陆。
我方2个师的兵力,敌方3个师的兵力,只能整师调动。有两条进攻路线。我方兵力超过敌方,则获胜;我方兵力小于或等于敌方兵力,则我方负。问如何决策?
1944年,艾森豪威尔为总司令的盟国远征军经过近一年的准备,在英国集结了强大的军事力量,准备横渡英吉利海峡,在欧洲开辟第二战场。
当时可供盟军选择的登陆地点有两个,一是塞纳河东岸的布隆涅——加来——敦刻尔克一带,这里海峡最狭窄的地方只有几十公里,是一个理想的登陆地点;另一个地点是塞纳河西岸的诺曼底半岛,这里海面宽阔,渡海时间较长,容易被敌人发现。
当时德军的总兵力是58个师,比盟军略多。所获情报表明,德军在布隆涅一带的防守兵力多于在诺曼底的防守兵力,盟军拟以诺曼底为登陆点。
诺曼底登陆战本来是计划在6月5日打响的,但遇上了暴风雨。盟军参谋部预测在6月6日有一段时间的好天气,艾森豪威尔当机立断,决定冒险抓住这个机会,发起进攻。
6月6日凌晨两点,盟军的2个伞兵师空降道德军的防线后面,接着,飞机和军舰猛烈轰击德军的防御阵地,凌晨6点半,第一批地面部队登陆。
现在回到普林斯顿的博弈论练习题。
敌方有四种方案:
A 、三个师都驻守甲方向;
B 、反过来,三个师都驻守乙方向;
C 、两个师驻守甲方向,一个师驻守乙方向;
D 、反过来,一个师驻守甲方向,两个师驻守乙方向。
我方有三种方案:
a 、两个师从甲方向进攻;
b 、反过来,两个师从乙方向进攻;
c 、兵分两路,两个方向各派一个师进攻。
下面,我们用“+”表示获胜,用“-”表示失败,用上面大家熟悉的矩阵方式列于下面:
敌方
A B C D
a
我方 b
c
在上面的对策矩阵中,“-”表示“负”,“+”表示“胜”。
现在我们来分析敌方的策略选择。A 方案不如C 方案,B
方案不如D 方案。 所以,敌方不会选择A 、B 方案,于是,剔除掉这两个方案,得到下面的对策矩阵:
敌方
C D
a
我方 b
c
在剩下的对策矩阵中,再分析我方的策略选择。c 方案比a 、b 方案都要差,所以,要将c 方案剔除,得到下面的对策矩阵:
敌方
C D
a 我方
b
所以,最后的均衡是:敌方不可能把所有兵力驻守在一个方向,我方也不可能兵分两路进攻,在两个进攻方向上,如果我方攻在敌方的薄弱之处,则我方取胜,反之,若攻在敌方的强大之处,则我方失败。因此,信息就非常重要。
不仅信息重要,而且,信号传递、双方统帅的性格等因素也非常重要。有时,佯攻甲方向实攻乙方向;有时,给人佯攻甲方向而实际上就是进攻甲方向。等等。
对于企业、个人的发展来说,该博弈也有参考意义。对于弱势方来说,一般是集
中时间、精力和财力发展某一个方向,否则,只有失败。
二、优势策略与纳什均衡
1、优势策略
在囚徒困境中,不管乙的策略是坦白还是抵赖,甲的最优策略都是坦白;反之亦然。这种策略就叫优势策略(dominant strategy)。
那么,两个囚徒能不能暗自订立“攻守同盟”呢?
问题是,没有一个会相信对方的承诺是可信的。这叫“不可置信承诺”。
黑社会采取以下办法让承诺变得可以置信。黑社会对于供出同伙的人,往往采取“格杀”的惩罚。这样,囚徒困境就改写为:
囚徒乙
坦白 抵赖
坦白 囚徒甲
抵赖
这时,(抵赖,抵赖)就成了优势策略。
2、纳什均衡(Nash Equilibrium)
给定其他参与人的战略s -i *,参与人i 的战略s i *是优的,如果对于所有的参与人和参与人的所有的策略来说,下式成立:
u i (s i *,s -i *)≥u i (s i ,s -i *)
如果不等式严格成立,则成为严格优势策略。
3、优势策略与纳什均衡
优势策略肯定是纳什均衡,但纳什均衡不一定是优势策略。
在性别战、斗鸡博弈等博弈中,没有优势策略,但有两个纳什均衡。
4、博弈求解
一种方法是剔除劣势策略。比如在诺曼底登陆博弈中的做法。
但经常没有严格劣势的策略,比如性别战。
另一种方法是划线法:取每一种策略局中人最大的收益,在其支付下划线(或画圈),如果一个格中的两个支付都被划上线,则这个策略就是一个均衡。
复习上面讲过的博弈,用划线法求解。
5、博弈的分类
(1)静态(static)与动态(dynamic)
静态是指局中人同时决策或同时行动(simultaneous-move )。同时决策或同时行动不是指的时间上完全一致,而是指每个参与者不知道其他参与者的决策或行动。
比如囚徒困境,也许两个囚徒的坦白时间是不同的,但互相不知到对方是否坦白,所以是同时行动。
再比如工程招标,不同的投标者投标的时间也许不同,但只要互相不知道对方的报价,则是同时行动。
如果局中人的决策或行动按照规则是有先后次序的(sequential-move ),则是动态博弈。后面要进行简单介绍。
(2)完全信息(complete information) 与不完全信息(incomplete information)
完全信息是指各种策略组合下局中人的支付函数是所有局中人的共同知识(common knowledge)。
(3)完美信息(perfect information)与不完美信息(imperfect information)
完美信息是指局中人完全清楚到他决策时为止所有局中人的所有决策,或者说,了解博伊进行的历史。
(4)博弈的分类
博弈可分为以下几种基本的大类:
完全信息静态博弈(static games of complete information)
完全信息动态博弈(dynamic games of incomplete information)
不完全信息静态博弈(static games of complete information)
不完全信息动态博弈(dynamic games of incomplete information)
如果把信息完美与否考虑进来,则有:
完全且完美信息博弈(games of complete and perfect information)
完全但不完美信息博弈(games of complete but imperfect information)
不完全但完美信息博弈(games of incomplete but perfect information)
不完全且不完美信息博弈(games of incomplete and imperfect information)
只有动态博弈才考虑完美或不完美信息。
注意,在英语中,(不)完全信息博弈与(不)完美信息博弈的表达有细微的区别:games of complete information与games with perfect information。
另外,根据局中人支付的情况,又有以下分类:
零和博弈(zero-sum game)和非零和博弈(non-zero-sum game)。
常和博弈(constant-sum game)和变和博弈(variable-sum game)。
做一定的数学处理,可以把常和博弈处理成零和博弈。
变和博弈包含一个很重要的哲理:双赢(win-win )。
当然,也有共亏的局面,如囚徒困境,这也是一个重要的课题:个人理性与集体理性的矛盾。
三、动态博弈与重复博弈
1、动态博弈
前面讨论的博弈有两个共同特点:一,只博弈一次,博弈结束;二,博弈双方同时行动。这是静态博弈。
在动态博弈中,博弈双方进行多次博弈。比如下棋,你下一步,我下一步,这就是一个动态博弈。
动态博弈一般采用博弈树的形式表达,如以下博弈:
“利益一致”的“抓钱博弈”
“你死我活”的“抓钱博弈”
“温和对抗”的“抓钱博弈”
动态博弈采用“逆向归纳法”求解。
逆向归纳法(backward induction ):也称倒推法(rollback method) ,从博弈的最后一个决策阶段开始分析,确定该阶段局中人的策略选择;然后再确定前一阶段局中人的策略选择,一直推到起始点。
现在我们来分析前面的“抓钱博弈”。
在利益一致的博弈中,第4阶段由乙决策:乙如果拿,只能得到4,而如果不拿,则进入下一结点,得到支付5,所以乙选择不拿。
到第3阶段,由甲来决策,同样,甲会选择“不拿”。
所以,该博弈的均衡是:在前面几个阶段,甲乙都选择“不拿”,直到进入最后的结点,每人得到5的支付。
在“你死我活”的博弈中,在第4阶段,乙如果选择不拿,则进入最后的结点,得到0的支付;而如果选择拿,则得到8的支付,于是,选择拿,博弈结束。
到第3阶段,甲知道乙会在下一阶段会选择拿,因此,自己在本阶段的最有选择也是拿,一直倒推到起点。本博弈的均衡是:甲一开始就选择拿,博弈结束。
在温和对抗的博弈中,第4阶段由乙选择,若选择拿,得到支付5,若选择不拿,得到支付4,所以,乙选择拿,博弈结束。
到第3阶段,甲知道乙在第4阶段会选择拿,甲若选择不拿,只能得到3,而选择拿,则得到4。所以,甲的选择也是拿,博弈结束。本博弈的均衡也是:甲一开始就选择拿,博弈结束。
2、重复博弈
重复博弈(repeated game)是指同一博弈重复多次。
一次博弈中存在的欺骗,可能在重复博弈中消除。典型的例子是游贩和坐摊的区别。游贩与买者之间因为是一次性博弈,往往采用欺骗的办法;而坐摊与买者之间是重复博弈,所以,能够诚信经商。
重复博弈之所以能够消除欺骗,是因为存在报复。比如坐摊,买者会采取报复手段:你如果卖了假冒伪劣商品给我,那我,一,会回来找你的麻烦,要求赔偿,甚至告发你的不正当行为;二,我今后再也不到你这里买东西。
现在以囚徒困境为例,分析无穷次重复博弈的结果。
所谓无限次重复,是指局中人不知道会重复多少次,而不一定是真正的无穷多次。
囚徒乙
坦白 抵赖
坦白 囚徒甲
抵赖
两个囚徒都知道,大家保持沉默(抵赖)是集体利益最大的选择。但正如前面所说的,如果只是一次性博弈,则(坦白,坦白)是均衡的结果。
我们选择囚徒困境的另一种情况来说明比较好,因为严格的囚徒困境会限制博弈
的次数,因为一个人的生命是有限的。
比如抛硬币博弈,如果甲乙两人都出正面,则1人得到1元的奖赏,如果两人都出反面,则1人得到3元的奖赏,如果不同,则出正面的得到4元的奖赏,出反面的没有奖赏。得到下面的博弈矩阵:
乙
正面 反面
正面 甲
反面
双方都知道出反面最好,所以,假定开始的时候大家都承诺要出反面。但这样的承诺是否可信呢?如果只是一次行博弈,则这样的承诺是不可信的,因为每个人有改变策略的驱动。
现在是无穷多次重复博弈,双方都知道,如果对方发现我上次出正面,那他就不会相信我的话了,今后就会出正面进行报复。也就是说,我只能占一次便宜;而对方也只会吃一次亏。从长远利益考虑,我的最优选择是信守承诺,出反面。
假定是n 次博弈,局中人的计算是:
如果我前面m 次出反面,第m+1次违背承诺出正面,那么我的支付是3m+(n-m),而如果一直出反面,则支付是3n ,显然3n>3m+(n-m)。所以,我会选择一直出反面。
当然,如果知道n 的确切数值,则狡猾的局中人会在最后一次改变策略,出正面,希望得到3(n-1)+4的支付,因为3(n-1)+4>3n。
但问题是,对方也不是笨蛋。
所以,只有当n 为不确切的数值时,双方才会信守承诺。
四、信息经济学的基本问题
1、信息不对称(asymmetric information)
信息不对称:一方拥有的信息对方不知道。比如说,经理人是否努力工作,经理人自己最清楚,老板不一定清楚。
所以,设计机制或合约时,一定要以可证实的变量为基础。比如,工作是否努力是不可证实的。
至于目前各单位采用的许多变量,比如“政治上与党中央保持高度一致”、“廉洁奉公”、“努力学习”等等,都是不可证实的变量。因此,靠这些条件来考核,是不能真正考核出优劣的。
为什么会出现“会做的不如会写的,会写的不如会编的,会编的不如会唱的,会唱的不如会吹的”这样的结果?就是因为设计机制或合约时所依据的变量是不可证实的。
相对于“努力工作”来说,“工作业绩”(如销售收入、利润、成本)等是可证实的。
高校排名,评价的指标中主要是可证实的变量,如资产规模、教授数、学术论文、论著、科研经费等。
设想一下,如果是采取一些不可证实的变量来排名,则恐怕谁也不服谁。
同样,教师不能完全以是否努力学习来评判学生,而需要采用成绩。这就是为什么不论哪个国家都要进行考试的原因。
在信息不对称的情况下,主要有道德风险、逆向选择、信号传递等基本问题。
moral hazard)
亚当•斯密(1776)在《国富论》中就已经意识到了道德风险的存在,只是没有采用这样一个名词。
“无论如何,由于这些公司的董事们是他人钱财而非自己钱财的管理者,因此很难设想他们会像私人合伙者照看自己钱财一样地警觉,所以,在这类公司事务的管理中,疏忽和浪费总是或多或少地存在的。”
道德风险是指从事经济活动的人在最大限度地增进自身效用时作出不利于他人的行动。
道德风险存在于信息不对称、合同不完备、合同实施成本过大等情况下。
信息不对称:由于一个人拥有私人信息,就占有信息优势,从而可以找机会偷懒或不负责任。
在委托-代理问题中,代理人具有委托人不知道的私人信息。
合同不完备:由于人们的知识和预测能力是有限的,不可能把所有可能发生的情况都写进合同中。
合同实施成本过大:即便能够把所有可能情况都写进合同中,由于实施成本过大,往往也难以完全实施。
总之,由于信息不对称、合同不完备、合同实施成本等原因,人们往往宁愿接受由于道德风险所带来的损失。因为搜寻信息需要成本、制订完备合同需要成本、完全实施合同需要成本,当这些成本高于因道德风险造成的损失时,就选择任由道德风险的存在。
所以,在委托人-代理人之间,往往寻求的是一种均衡,当监督和签订、实施合同的边际成本等于道德风险的边际成本时,均衡就形成了。
3、逆向选择(adverse selection)
经济学家阿克洛夫(Akerlof, George)在1970年发表的论文“次品市场”(The Market of Lemons,Quarterly Journal of Economics,84(3),August,488-500)中首次从现代经济学的角度对逆向选择进行了分析。
在二手车市场上,卖者对车的质量占有信息优势。假定有好、中、差三种车,对于卖者来说,这三种车的价值分别为11000美元、8000美元、5000美元;对于买者,这三种车的价值分别为12000美元、9000美元、6000美元。
如果信息是对称的,则三种车都有可能成交,比如,这三种车在11500美元、8500美元、5500美元的价值成交,对买卖双方都是有利的。
然而,由于信息不对称,买方不知道哪种车是好的,哪种车是差的,只能采取概率的方法。
假定三种车出现的概率相等,都为1/3。这样,对于买方来说,旧车的期望价值为:12000*1/3+9000*1/3+6000*1/3=9000美元。
于是,买方愿意出的最高价格为9000美元。
这样,卖方就不可能出售价值为11000美元的好车。于是,好车就退出市场。剩下的是中、差两种车。
买方当然也知道这点,于是,重新修改预期价值:9000*1/2+6000*1/2=7500美元。 于是,买方现在愿意出的最高价格为7500美元。
这样,卖方就不愿意出售价值8000美元的中等车,中等车也退出市场。
最后,市场上剩下的是最差的车。
这就是逆向选择。
逆向选择的例子很多,比如保险市场、劳动力市场、货币市场等。
保险市场:愿意参加保险的人很可能是身体有问题的人。身体是否有问题,投保人比保险公司更清楚,也就是说,投保人具有私人信息。保险公司知道这点,就把保险费定得很高,这样,身体好的人就更不愿参加保险,这部分人就退出了市场。所以,热衷于买保险的人往往是身体不好或年龄较大的人。
劳动力市场:劳动者的能力是劳动者的私人信息。所以,企业愿意出的工资是一个平均数,这样,能力特别强的人就会退出这个市场。所以,在一般劳动力市场上的往往是能力中等或能力差的人。
但企业又需要能力强的人,于是就有了猎头市场。企业把识别劳动者能力的任务交给猎头公司,并且猎头公司要承担风险。
货币市场:项目是否有风险是借款人的私人信息。所以,贷款人对贷款利率的出价是一个平均风险水平的价格,这样,风险低、收益低的稳定型借款者就会退出市场。所以,银行的坏账一天天增加。
4、信号传递
由于信息不对称,每个人都希望向对方传递对自己有利的信号。
比如,在招聘时,应聘者总是显示自己最好的一面。谈判中,企业总是把最能显示自己实力的一面展示出来。公司越来越注意企业形象的塑造。女孩子总是把自己打扮得漂亮。人们总是把最好的衣服穿在外面。等等。
问题是,对方不一定相信你所传递的信号是真实的。
有的信号,一下子是难以识别真伪的,需要时间。所以,“百年老店”是最好的信号传递方式。
曾经有几家美国的企业联合控告日本公司倾销,美国法院的判决是:控告不成立,因为不可能有哪家公司能够长期采用低于成本的价格。
所以,长期采取低价策略的企业传递的信号是:我是低成本的,你成本高,别来。
长期在CCTV 黄金时段做广告的厂商传递的信号是:我有实力,企业经营一直不错。
出示自己的高学历证书和各种获奖证书的求职者传递的信号是:我是一个优秀的应聘者。
有的小公司对业务采取不冷不热的态度,传递的信号是:我不愁没业务做。 故意装着要离开的顾客传递的信号是,把价格再降点,否则我走了。
初恋时经常找不怎么符合逻辑的借口去找对方但又不说出口,传递的信号是,我对你有意思,你呢?当然指望是对方先说出来。
由于对方不一定相信你传递的信号,而甄别信号需要成本,所以,一定要传递可信(可观测)、并且甄别成本低的信号。
为什么招聘单位看重学历,因为学历容易甄别,而且比起能力的描述来,相对可靠。
为什么顾客喜欢买名牌产品,因为名牌是经过很多年才形成的,广告、产品质量、服务质量等因素起了很大的作用,名牌传递的信号就是:质量好,服务好。
注意:无论发出信号或不发出信号,都是一种信号传递。
复习
1.博弈论与古典经济学的区别在于,前者考虑行为人的相互影响。
2.博弈论现在得到了很快的发展,已经在经济、政治、社会、文化、自然科学等领域得到了广泛的应用。
3.一个完整的博弈要有局中人、行动集、时序、策略、支付、信息等要素来刻画,不同的博弈构建者可能对各种要素的不同组合感兴趣。
4.囚徒困境是最著名的一个博弈,它揭示了个体理性与集体理性的矛盾。要改变囚徒困境的结局,需要改变博弈的规则。
5.纳什均衡是描述博弈均衡的一个非常重要的概念,指的是一种相对稳定的状态,在局中人的策略组合下,没有人愿意单独改变自己的行动。一个博弈可能有多个纳什均衡。
6.优势策略是指无论对方采取什么行动,我都将采取的策略。比如囚徒困境中的“坦白”。优势策略肯定构成纳什均衡,但纳什均衡不一定是优势策略。
7.根据局中人的支付函数是否是共同知识,以及是否同时决策,可以把博弈分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。
8.完美信息和不完美信息的区分依据是,局中人对前面对局的情况是否清楚。
9.动态博弈采取博弈树的方法来表示。博弈树的方法也叫博弈的展开式。求解动态博弈的方法之一是逆向归纳法,或倒推法,即从最后一个结点开始往前面推导。
10.重复博弈是指不断重复某一博弈。重复博弈可能会改变一次博弈的均衡。重复博弈是动态博弈的一种。
11.信息不对称是指某一局中人占有私人信息,从而占有信息优势。
12.在不对称信息条件下,协议签订前有逆向选择和信号传递问题,协议签订后有道德风险问题。
13.道德风险是指占有信息优势的一方在最大化自己利益的同时采取不利于他人利益的策略。
14.逆向选择是指信息不对称的市场会把优秀的资源赶出局,而不是把低劣的资源淘汰掉。
15.信息优势方总是传递对自己有利的信号,而信息劣势方不会轻易相信,所以,最后的均衡是:传递可观测的、甄别成本低的信号。
进一步阅读
对本讲内容有兴趣的同学可进一步阅读以下文献:
周惠中,2003:《微观经济学》,第13章,第14章,上海人民出版社
(因为是在“微观经济学”中讲述博弈论和信息经济学的有关知识,所以,内容的选择和难易程度比较适中,有“点到为止”的感觉,适合本科生阅读。)
张维迎,1996:《博弈论与信息经济学》,“0. 导论”,“7. 逆向选择与信号传递”,上海三联书店,上海人民出版社
(这是国内最早介绍博弈论和信息经济学的著作,到2004年,已先后印刷8次,印数超过5万,是国内经济学著作中的“畅销书”,引用率极高,几乎所有涉及博弈论和信息经济学的文献都要引用张维迎的这本著作。这本书的难度较大,但张维迎在书中创造了一些“中国特色”的例子,值得一读。而且,中国人自己写的书,比那些蹩脚的译本要容易读懂些。顺便提一下,国人所著的博弈论的书,还有上海财大施锡铨写的《博弈论》、复旦谢识予的《经济博弈论》等,都是不错的书。)
王则柯、李杰,2004:《博弈论教程》,中国人民大学出版社
(中山大学王则柯教授最新为本科生写的教材,难度适中,主要讲完全信息博弈,有一定数学基础的同学都可以看懂。)
Macho-Stadler,I.,and J.David Perez-Castrillo,2004:《信息经济学引论:激励与合约》,“1. 导论”,上海财经大学出版社
(这本书对“道德风险”、“逆向选择”、“信号传递”三个问题作了专门的分析,但对于本科生来说难度较大。)
Dixit,A.K.,and Barry J.Nalebuff,2002:《策略思维》,中国人民大学出版社
(这是最通俗易懂的一本介绍博弈论的著作,书中很少使用数学,采用的案例来自于电影、小说、传记、日常生活等各个方面。这本书的译者是王则柯先生的女儿王尔山,与乃父比,文笔有更胜一筹之感。)
Akerlof,George,1970.The market for lemons. Quarterly Journal of Economics ,84(3), August, 488-500
(这篇文章可以在我的个人网页(http://web.cenet.org.cn/web/winninghu)的“下载资源”栏中找到,英语较好的同学,不妨一读。这篇文章没用什么数学,完全可以
读懂。据说,当初就是因为该文的数学少,而遭到了杂志社的退稿。)
Wilson,Charles. “逆选择(adverse selection)”,《新帕尔格雷夫经济学大辞典》,第1卷,第35-6页
Postlewaite, A.“非对称信息(asymmetric information)”,《新帕尔格雷夫经济学大辞典》,第1卷,第144-5页
Kotowitz, Y.“道德风险(moral hazard)”,《新帕尔格雷夫经济学大辞典》,第3卷,第588-91页
Riley,J.G . “发送信号(signalling )”,《新帕尔格雷夫经济学大辞典》,第4卷,第355-8页
习题
1、把“田忌赛马”的故事改编为一个博弈,并用博弈矩阵表示出来。
2、把“老虎-鸡-虫-棒棒”的游戏改编成一个博弈,并用博弈矩阵表示出来。
3、分别用剔除劣势策略法和划线法找出以下博弈的纳什均衡,这个博弈有没有严格优势策略?
局中人2
L R
U
局中人2 M
D
4、用逆向归纳法求出下面博弈的均衡解。