囚徒困境

出处:按学科分类—政治、法律 经济科学出版社《政治经济学大辞典》第745页(5127字)

是首先由塔克(Tucker,A)提出的一个博弈论问题,它揭示了个人理性与集体理性可能存在矛盾。

观察图A,假定有囚徒甲乙两人,如果双方均抵赖所犯罪行(D,D),则将各被判入狱1年;如果均坦白(C,C),则将各被判入狱5年;如果一方抵赖另一方坦白[(C,D)或(D,C)],则坦白者无罪而抵赖者入狱20年。结果囚徒甲和乙均将选择坦白,这是因为如果对手选择抵赖,那么另一方选择坦白和抵赖时分别被判释放和入狱1年;如果对手选择坦白,那么另一方选择坦白和抵赖时分别被判入狱5年和20年。无论对手采取何种态度,另一方的占优战略总是坦白,结果囚徒博弈的纳什均衡(Nash Equilibrium)是(坦白,坦白)而不是(抵赖,抵赖)(Morton,D., 1973)。图D中(C,C)不再是占优战略,但却是一个稳定的纳什均衡,因为如果对手无意中犯下错误选择时,该扰动将不会动摇最终的博弈结果,假定对手犯错误的可能是μ(即该囚徒以1-μ的概率选择坦白,错误地选择抵赖的概率为μ),那么另一囚徒在抵赖时的支付函数期望为(-10)×(1-μ);在坦白时的支付函数期望为-μ+(-5)×(1-μ)。

结果只要对手犯错误的概率μ≤5/6,囚徒的最优选择总是坦白。囚徒困境对传统经济学的微观基础构成了重大的挑战,因为斯密(Smith,A,1974)认为:人类的行为有六种动机,自爱、同情、追求自由和欲望、正义感、劳动和交换习惯。

推动人类进步的主要力量是自私利己的动机,以个人效用极大化为目标的个人理性指引人类努力劳动并导致经济繁荣和社会福利极大化的结果。“斯密有一项及其重要的贡献,他把在竞争条件下,个人追求私利的行为的系统分析,置于经济学的中心地位。这个理论是《国富论》王冠上的宝石,它成了(而且至今仍然是)资源分配理论的基础(Stigler,J.,1976)”。

但是囚徒困境的结果表明个人理性不能通过市场导致社会福利的最优。

当囚徒博弈中的参与人有两个以上时,该模型就演化为“公共地的悲剧”(Tragedy of Commons)。哈丁(Hardin,G.,1968)举例说:如果一群农民共同拥有一块草地,每个农民均享有在公共草地上自由放牧的权利,那么尽管每一个农民在决定增加饲养量时考虑了对牲畜边际价值的负面影响,但是由于个人效用函数中仅考虑了自己饲养的牲畜的价值的极大化,而不是整个草地上饲养牲畜的总价值的极大化,结果造成纳什均衡的总饲养量大于公共草地的最适饲养量,即公共草地被过度放牧了。

由此导出的制度经济学结论是:如果一种资源的产权缺乏明确界定,则市场并不能保证资源的合理配置,即市场存在外部性(Market Externality)。

图A中的囚徒博弈是完全信息下的静态博弈,在此一次博弈过程(One-Shot Game)中每个囚徒在给定信息下只能选择一种特定的行动(Action),因此该结果是纯战略(Pure Strategy)。但是如果囚徒们对对手坦白或抵赖的可能性有所了解,那么他们的行动将是以某种概率分布随机地选择不同的行动,比如囚徒甲了解囚徒乙一般是讲义气不坦白的人时,他自己也将可能选择抵赖而不是坦白,这样(抵赖、抵赖)也可能是博弈的结果。

哈萨尼(Harsanyi,J.,1973)对此提供了一种分析思路,即进行哈萨尼转换(Harsanyi Transformation),求出参与人可能类型的分布函数并将其当做博弈参与人共同知道的知识(Common Knowledge),这样不完全信息就转变成完全但不完美信息,然后再解出战略空间。如果囚徒困境的博弈矩阵是图D,依照哈萨尼转换,假设囚徒甲和乙抵赖的概率分别为x和y(也就是坦白的概率分别1-x和1-y),并且双方均了解这一信息,则囚徒甲和乙的效用函数的数学期望分别为:

U=x[0y-10(1-y)]+(1-x)[-y-5(1-y)]

U=y[0x-10(1-x)]+(1-y)[-x-5(1-x)]

对U和U分别求关于x和y一级导数为零时的方程,则x和y均为5/6。这意味着当囚徒们预计对手抵赖的概率大于5/6时将采取抵赖战略,预计对手抵赖的概率小于5/6时将采取坦白战略,预计对手抵赖的概率等于5/6时采取抵赖或坦白是等效的战略。(5/6,1/6)就构成了囚徒困境中的混合策略,即囚徒的战略是取决于对手类型而采用抵赖或坦白两种行动。

图A

图D

此外,囚徒困境可以扩展为完全信息的动态博弈形式,即囚徒甲乙的行动有先后顺序,且后动者可以观察到先动者的行动。这样囚徒困境扩展形式的博弈矩阵为图C。

针对囚徒甲的特定行动,囚徒乙具有四种纯战略:①不管甲是抵赖或坦白,乙一定坦白(C,C);②甲坦白乙也坦白,甲抵赖乙也抵赖(C,D);③甲坦白则乙抵赖,甲抵赖则乙坦白(D,C);④不管甲是抵赖或坦白,乙一定抵赖。此囚徒博弈中尽管[C,(C,D)]和[D,(C,D)]也是纯战略纳什均衡,(事实上弗登博格(Fudenberg,D,1991)更指出参与人各种纯战略所组成的空间实际上和混合战略是等价的),但是由于只是囚徒乙的(C,C)战略在子博弈和原博弈中均给出纳什均衡,因此只有[C,(C,C)]构成囚徒困境中的精炼纳什均衡(Perfect Nash Equilibrium);或者说如果完全信息下囚徒困境的博弈次数是有限的,其最终均衡是一次性博弈的纳什均衡的多次重复(Selten,R.,1965)。

图C

在完全信息的囚徒困境动态博弈中,尽管博弈重复多次,但是(坦白,坦白)总是均衡结果,而(抵赖、抵赖)总是处于博弈树的非均衡路径上,似乎囚徒们没有相互勾结进行抵赖的积极性,这有悖于通常的直观理解(Selten,R.,1978)。

但当我们引入不完全信息或将博弈重复无限次再讨论囚徒困境时,均衡结果可能改变。首先我们考虑不完全信息的静态博弈,如图B,如果囚徒甲乙可能在对方采取坦白而己方采取抵赖时有不同的支付函数(-10+α)和(-10+β),那么α和β就分别是参与人甲乙的类型,假定α和β分别在[-e,ε]上均匀分布,那么一定存在α*和β*,甲在α≥α*时选择抵赖,概率为[1-(α*+ε)/2ε];在α≤α*时选择抵赖,概率为(α*+ε)/2ε,同样也可以得出囚徒乙相应概率下的行动。

经过哈萨尼转换后,我们得出α**=

囚徒甲和乙选择抵赖的概率均是1-[(6+ε)-,当ε→0时,容易看出上述概率收敛于5/6,这也就是混合战略(Harsanyi,J.,1967)。

其次我们考虑无限次重复博弈,如果囚徒们有足够的耐心,那么(抵赖、抵赖)是子博弈纳什精炼均衡的结果之一。例如在图A中囚徒们遵循如下触发战略开始选择抵赖,一旦对手选择了坦白之后自己也永远选择坦白,这是因为一方选择坦白时将遭受对手永远坦白的惩罚,假定时间贴现因子为d,那么此时支付函数是:U(D)=0+d(-5)+d2(-5)+d3(-5)+……=-5d/(1-d);而坚持抵赖虽然牺牲了目前暂时的利益,但是总的支付函数是:U(C)=(-1)+d(-1)+d2(-1)+d3(-1)+……=-1/(1-d),只要d=≥0.2,即囚徒们比较重视未来受益,那么囚徒们选择触发战略是最优的,并有维持该战略的积极性(Friedman,J.,1971)。

图B

阿克斯罗德(Axelrod,R..1984)不认为囚徒困境模型的博弈论结果具有现实性,因为在不完全信息动态博弈中,囚徒困境的计算机竞赛结果表明,如果博弈重复次数不低于200次,那么针锋相对(Tit-for-Tat)是参与人的较佳策略,合作起源的必要条件是个人建立在互惠基础上和“自己活着让别人也活着”的战略。该囚徒困境中参与人的策略概括起来有四点:避免冲突、投桃报李、以牙还牙、相互沟通。

但是该策略并不是纳什均衡或贝叶斯均衡(Bayesian Equilibrium)。

图洛克(Tullock,G..1984)则认为囚徒困境具有现实性,在他看来,几乎所有人类之间的相互作用均能在囚徒困境博弈中找到自己的影子,如果考虑到有成本的承诺行为和“社会的肯定和否定”对于囚徒效用函数的影响,那么囚徒间的合作和(抵赖、抵赖)这一帕累托最优是可能出现的。不过这里图洛克的解释隐含着制度先于行动的假定。囚徒困境对我们研究制度的起源也有帮助:由于外在的社会性压力,人们在交往中逐渐发现如果遵从某种规则(例如针锋相对规则),那么每个社会成员的效用将大于人人自私自利时的效用,于是这种规则逐渐被认可并演进为制度(张宇燕,1992,P.182~187)。

参考文献:

Axelrod,R.,1984,The Evolution of Cooperation,Basic Books Inc.,17—18.

Friedman,J.,1971,A Noncooperative Equilibrium for Supergame,Reviexv of Economic Studies,Vol 38.

Fudenberg,D&.Tirole,J.,1991,Game Theory,87—90,MIT Press.

Hardin,G.,1968,The Tragedy of Commons,Science,Vol 162,1243—1248.

Harsanyi,J.,1967,Games with Incomplete Information Played by Bayesian Players,Management Sci—ence,Vol 14,159—182.

Harsanyi,J.,1973,Games with Randomly Distributed Payoffs:A New Retionale for Mixed Strategy Equilibrium Points,International Journal of Game Theory,Vol 2,1—23.

Morton,D.,1973,Game Theory.A Nontechnical Introduction,Basic Books Inc.,92—94.

Selten,R.,1965,Reexamination of the Perfectness Concept for Equilibrium Points in Extensive Games,International Journal of Game,Vol 4,25—55.

Selten,R.,1978,The Chain Store Paradox,Theory & Decision,Vol 9,127—129.

Stigler,J.,1976,The Success and Failure of Professor Smith,Journal of Political Economics.

Tullock,G.,1985,Adam.Smith and the Prisoners’Dilemma,Quarterly Journal of Economics,Vol 100 Supplement,1073—1081.

亚当·斯密,1974,《国民财富的性质和原因的研究》,商务印书馆。

张宇燕,1992《经济发展与制度选择》,中国人民大学出版社。

分享到: