二人零和对策

出处:按学科分类—经济 经济科学出版社《西方经济学大辞典》第238页(597字)

通常用二维的赢得矩阵表示。

因为一方P之得即为另一方Q之失,所以矩阵元素不必是2个数的数组,只写P或写Q的赢得即可。下面的赢得矩阵B表示,P有m种纯策略抉择,Q有n种纯策略抉择(不由随机试验决定取舍的策略称纯策略)。

如果P取第i种策略而Q取第j种策略进行一局对策,而P的赢得为bij,而Q的赢得为-bij

为了使对方不知道自己将采取什么策略,每人都不会固定采取某种纯策略,而是各采取一种所谓混合策略。对P来说是p=(p1,p2,…,pm),即以概率pi采取策略Pi,这里p1,p2,…,pm≥0,p1+p2+…+pm=1。

如果p5=0.17,就表示P将随机地按照0.17=17%的几率采用他的第5个纯策略。对于Q来说则有q=(q1,q2,…,qn),即以概率qi采用策略Qi

冯·诺依曼证明了下述二人零和对策的基本定理:P和Q可以找到各自的最优混合策略p和q;只要P按照混合策略p行事,不管每局Q事实上采取哪一种纯策略,平均来说P每局的赢得至少是W(P);另一方面,只要Q按照混合策略q行事,平均来说Q每局的赢得至少为-W(Q);并且W(P)=W(Q),统一记作W,称为这个二人零和对策的均衡值。

分享到: