连续对策
出处:按学科分类—政治、法律 经济科学出版社《政治经济学大辞典》第236页(2593字)
又译为“重复博弈”,是指相同结构的对策重复多次甚至于无限次,其中的每次对策称之为“阶段对策(博弈)”(stage game)。
在每个阶段对策中,参与人可能同时行动,也可能不同时行动。在后一种情况下,阶段对策本身就是一个动态对策。
因此,连续对策可能是不完美信息对策(game of unperfect information),也可能是完美信息对策(game o厂 perfect information),但对策论专家所说的连续对策一般是指前一种情况(张维迎,1996,P.207~208)。
连续对策具有三个基本特征:(1)与序贯对策(sequential games,这个概念是指这样一种动态对策:参与人在前一个阶段的行动选择决定随后的子对策(subgame)的结构,因此从后一个决策开始的子对策不同于从前一个决策开始的子对策,即同样结构的子对策只出现一次)不同,连续对策之间没有“物质上”的联系(no physical links),即前一个阶段的对策并不改变后一个阶段对策的结构;(2)在连续对策的每一个阶段,所有参与人都观测到该对策过去的历史;(3)参与人的总支付(payoff)是所有阶段对策的支付的贴现值之和或加权平均数。
因为其他参与人过去行动的历史是可以观测的,那么,在连续对策中,每个参与人可以使自己在每个阶段选择的对策依赖其他参与人过去的行动历史,以囚徒困境的连续对策为例,参与人可以选择这样的对策:“如果对方上次选择了坦白,那么我这次将选择坦白,如果对方上次选择了抵赖,那么我这次就选择抵赖”。因此,参与人在连续对策中的战略空间(strategy space)远远大于和复杂于每一阶段对策中的战略空间。
仍以囚徒困境为例,即使囚徒困境对策只重复5次,每个囚徒的纯战略(pure strategy)数量大于20亿个(因为战略是一个完备的相机行动方案,它必须说明在每一种可能的状态下参与人的行动选择,即使参与人并不预期这种状态真的会出现),而战略组合的数量就更多了。这表明,连续对策会出现一些“额外”的均衡结果,这些均衡结果在一次对策中是不会出现的。
这一点正是分析连续对策的意义所在。
影响连续对策均衡结果的主要因素是对策重复的次数和信息的完备性(completeness)。
重复次数之所以重要,是因为在连续对策中,参与人存在着短期利益和长远利益的权衡。当对策只进行一次时,参与人只会关心一次性的支付,但如果是连续对策,参与人就有可能为了长远利益牺牲短期利益从而选择不同的均衡战略。
连续对策的这个结果,为现实中的许多合作行为和社会规范提供了解释。信息的完备性之所以影响均衡结果,是因为如果每一个参与人的特征不为其他参与人所知时,该参与人就很可能有积极性建立一个“好”声誉(reputation)以换取长远利益。
根据连续对策重复的次数可以将其分为有限次连续对策和无限次连续对策。
如果构成有限次连续对策的阶段对策具有惟一的纳什均衡(Nash equilibrium),那么这个有限次连续对策的惟一子对策精炼纳什均衡(subgame perfect Nash equilibrium)结果是阶段对策的纳什均衡重复N次(N是连续对策的重复次数),即每个阶段对策出现的都是一次性对策的均衡结果。
泽尔腾(Selten)用所谓的“连锁店悖论”(chain-store paradox)描述了这种结果。但如果阶段对策的纳什均衡并不惟一,这个结论就不一定成立,原因在于当阶段对策有多个纳什均衡时,参与人可以使用不同的纳什均衡惩罚对方前一个阶段的不合作行为或奖励对方前一个阶段的合作行为,而这一点在阶段对策只有惟一的纳什均衡时是做不到的。可以证明,当对策重复无穷次而不是有限次时,存在着完全不同于一次对策的子对策精炼均衡。关于无限次连续对策,存在着一个所谓的“无名氏定理(folk theorem)”,该定理说明:当对策重复无限次时,如果参与人有足够的耐心(用贴现因子来表示,有足够的耐心即贴现因子足够大),任何满足个人理性的可行支付向量都可以通过一个特定的子对策精炼纳什均衡得到(实际上,这里的贴现因子也可以代表对策在某个阶段结束的可能性,这样更符合实际一些,毕竟,对策很难是无限次重复的,但许多时候我们不能确定它何时结束)。这个定理表明无限次连续对策可能有无穷多个精炼均衡结果。
再来介绍不完全信息连续对策。
“连锁店悖论”表明的结果似乎和人们的直觉并不一致。实验结果表明即使在有限次连续对策中,合作行为也经常出现。
克瑞普斯、米尔格罗姆/罗伯茨和威尔逊(D.Kreps,P.Milgrom,J.Robert,and R.Wilson)的声誉模型(reputation model,简称KMRW模型)通过将不完全信息引入连续对策解开了连锁店悖论。他们通过这个模型证明了,参与人对其他参与人支付函数或战略空间的信息的不确定(哪怕很小)会对均衡结果有重要影响,只要对策的次数足够长(并不需要是无穷次),参与人有足够的耐心(贴现因子足够接近于1),合作均衡在有限次连续对策也会出现。这是该模型的最为成功之处。
此外,还有参与人不固定时的连续对策和不确定环境下的连续对策。
参考文献:
张维迎,1996,《博弈论与信息经济学》,上海三联书店、上海人民出版社。
王国成、黄韬,1996,《现代经济博弈论》,经济科学出版社。
Drew Fudenberg and Jean Tirole,1991,Game Theory,MIT Press.
约翰·伊特韦尔等编,1996,《新帕尔格雷夫经济学大辞典》,经济科学出版社。