混合策略纳什均衡详解（混合策略纳什均衡一定存在吗）-掘金网

纳什均衡，又称为非合作博弈均衡，是博弈论的一个重要术语，以约翰·纳什命名。在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。如果两个博弈的当事人的策略组合分别构成各自的支配性策略，那么这个组合就被定义为纳什均衡。

一个策略组合被称为纳什均衡，当每个博弈者的均衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。

纳什均衡的得来

关于纳什均衡的普遍意义和存在性定理的证明等奠定非合作博弈理论发展基础的重要成果，是约翰·纳什在普林斯顿大学攻读博士学位时完成的。实际上，博弈论的研究起始于1944年冯·诺依曼（Von Neumann）和奥斯卡·摩根斯坦（Oscar Morgenstern）合著的《博弈论和经济行为》。然而却是纳什首先用严密的数学语言和简明的文字准确地定义了纳什均衡这个概念，并在包含“混合策略（mixed strategies）”的情况下，证明了纳什均衡在n人有限博弈中的普遍存在性，从而开创了与诺依曼和摩根斯坦框架路线均完全不同的“非合作博弈（Non-cooperative Game）”理论，进而对“合作博弈（Cooperative Game）”和“非合作博弈”做了明确的区分和定义。阿尔伯特·塔克（Albert tucker）教授评价其论文，“这是对博弈理论的高度原创性和重要的贡献。它发展了本身很有意义的n人有限非合作博弈的概念和性质。并且它很可能开拓出许多在两人零和问题以外的，至今尚未涉及的问题。在概念和方法两方面，该论文都是作者的独立创造。”

纳什均衡例子

1.囚徒困境

博弈论中一个著名的例子就是囚徒困境。囚徒困境是一个非零和博弈，说的是两个嫌疑犯甲和乙私入民宅联手作案，被警方逮住但未获证据。警方于是将两个嫌疑犯分开审讯。警官分别告诉两个囚犯，如果你招供，而对方不招供，则你将被判刑3个月，对方将被判刑10年；若两人都不招供则因未获证据但私入民宅将各拘留1年；如果两人均招供，每人将被判刑5年。于是，两个人同时陷入招供还是不招供的两难处境。结果是，尽管甲不知乙是否招供，但他认为自己选择“招供”最好，因而甲会选择“招供”，同样乙也会选择“招供”，两人各判5年。而两人都选择不招供，虽证据不足但因私入民宅将各拘留1年的结果是不会出现的。

博弈矩阵囚犯甲招供不招供囚犯乙招供判刑五年甲判刑十年；乙判刑三个月不招供甲判刑三个月；乙判刑十年判刑一年

在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。如果两个博弈的当事人的策略组合分别构成各自的支配性策略，那么这个组合就被定义为纳什均衡。纳什均衡又称为非合作博弈均衡，是博弈论的一个重要术语，它是以美国数学家、日后成为电影《美丽心灵》主人公的纳什的名字命名的。在上述囚徒困境例子中，两个囚犯符合自己利益的选择是坦白招供。这种两人都选择坦白的策略以及因此被判刑五年的结局就是“纳什均衡”。

2.打猎

两个猎人出发去打猎。假设一头鹿有400公斤肉，但必须两人合作才能打到，一个人打什么都获得不了。同地区有一群兔子，一共有200公斤肉，两人合作可以全部打完，但一个人打也可以获得100公斤肉。两个猎人各自都知道对方的平衡策略，但不能通过任何方式影响对方的决策。最终的结果会怎样？

决策结果ABAB猎鹿猎鹿200200猎鹿猎兔0100猎兔猎鹿1000猎兔猎兔100100

这里面有两个纳什均衡。

（1）两人都猎鹿：任何一人单方切换成猎兔子，都会让自己的收益从200跌到100。

（2）两人都猎兔子：任何一人单方切换成猎鹿，都会让自己的收益从100跌到0。

注意，这里面都是单方更改。要是双方同时从兔子换成鹿，都会更好——但纳什均衡不考虑这个。

这也造成了一个问题：纳什均衡从全局看起来不见得是“理性”的，不是看起来的最优解，但是对每个人来说，它的确是在别人不可控时自己的最优解。

纳什均衡的重要影响

纳什均衡理论奠定了现代主流博弈理论和经济理论的根本基础，正如克瑞普斯（Kreps，1990）在《博弈论和经济建模》一书的引言中所说，“在过去的一二十年内，经济学在方法论以及语言、概念等方面，经历了一场温和的革命，非合作博弈理论已经成为范式的中心……在经济学或者与经济学原理相关的金融、会计、营销和政治科学等学科中，现在人们已经很难找到不懂纳什均衡能够‘消费’近期文献的领域。”纳什均衡的重要影响可以概括为以下六个方面（谢识予，1999）：

（1）改变了经济学的体系和结构。非合作博弈论的概念、内容、模型和分析工具等，均已渗透到微观经济学、宏观经济学、劳动经济学、国际经济学、环境经济学等经济学科的绝大部分学科领域，改变了这些学科领域的内容和结构，成为这些学科领域的基本研究范式和理论分析工具，从而改变了原有经济学理论体系中各分支学科的内涵。

（2）扩展了经济学研究经济问题的范围。原有经济学缺乏将不确定性因素、变动环境因素以及经济个体之间的交互作用模式化的有效办法，因而不能进行微观层次经济问题的解剖分析。纳什均衡及相关模型分析方法，包括扩展型博弈法、逆推归纳法、子博弈完美纳什均衡等概念方法，为经济学家们提供了深入的分析工具。

（3）加强了经济学研究的深度。纳什均衡理论不回避经济个体之间直接的交互作用，不满足于对经济个体之间复杂经济关系的简单化处理，分析问题时不只停留在宏观层面上而是深入分析表象背后深层次的原因和规律，强调从微观个体行为规律的角度发现问题的根源，因而可以更深刻准确地理解和解释经济问题。

（4）形成了基于经典博弈的研究范式体系。即可以将各种问题或经济关系，按照经典博弈的类型或特征进行分类，并根据相应的经典博弈的分析方法和模型进行研究，将一个领域所取得的经验方便地移植到另一个领域。

（5）扩大和加强了经济学与其他社会科学、自然科学的联系。纳什均衡之所以伟大，就因为它普通，而且普通到几乎无处不在。纳什均衡理论既适用于人类的行为规律，也适合于人类以外的其他生物的生存、运动和发展的规律。纳什均衡和博弈论的桥梁作用，使经济学与其他社会科学、自然科学的联系更加紧密，形成了经济学与其他学科相互促进的良性循环。

（6）改变了经济学的语言和表达方法。在进化博弈论方面相当有造诣的坎多利（Kandori，1997）对保罗·萨缪尔森（Paul Samuelson）的名言“你甚至可以使一只鹦鹉变成一个训练有素的经济学家，因为它必须学习的只有两个词，那就是‘供给’和‘需求’”，曾做过一个幽默的引申，他说，“现在这只鹦鹉需要再学两个词，那就是‘纳什均衡’”。

美国债务危机最新消息（美国债务危机如何解决）

纳什均衡案例分析

案例一：纳什均衡在货币政策效应中的应用

一、博弈论下的货币政策博弈分析

货币政策博弈分析利用博弈论方法分析宏观金融博弈问题。因而，博弈论是宏观金融博弈分析的方法论基础。纳什(Nash) 在195O年和1951年发表了两篇关于非合作博弈的重要文章，从一般意义上定义了非合作博弈及其均衡解．并证明了均衡的存在．基本奠定了现代非合作博弈论的基础。因而，该均衡以后被博弈理论称为“纳什均衡”。即是指由所有的参与者的最优策略组成的策略组合。在这种策略组合中给定其他参与者的策略，没有任何单个参与者有积极性选择其他策略也就没有人主动去打破这种均衡。相反如果一种均衡或制度安排，如果不是一种纳什均衡．即不是所有参与者的最优策略组合那么，这种组合就不能成立或者至少不能持续。合作博弈强调团体理性、效率和公平。而非合作博弈强调个人理性、个人最优决策。其结果可能是有效的也可能是无效的。现实中大量的经济博弈问题是非合作博弈。非合作博弈理论的发展为其在经济研究中的广泛应用创造了条件并推动了合作博弈的进一步发展。

纳什均衡假定博弈参与者在选择自己的策略时，把其他参与者的策略当做给定的。而不考虑自己的选择如何影响博弈对手的选择。这个假定在静态博弈下是成立的，但在动态博弈下却不成立。

在静态博弈中，所有参与者同时行动，不可能在自己采取行动前观察到其他人的行动因而就无暇反应。但在动态博弈中一方行动在先另一方行动在后．后者自然会根据前者的选择而调整自己的选择，前者自然会理性地预期到这一点，所以不能不考虑自己的选择对其他参与者的影响，由于决策者不考虑自己的选择对他人选择的影响，纳什均衡允许了不可置信威胁的存在。1965年泽尔腾(Selten) 将纳什均衡的概念引入了动态分析定义了子博弈精练纳什均衡” 的概念。将不可置信的威胁策略从纳什均衡中剔除出去，从而解决了完全信息动态博弈均衡求解问题将不可置信的策略变成可置信策略的行动即经济学中的承诺行动”。如果当事人不履行其承诺时将为之付出相应的代价这种承诺就是可置信的，否则就是不可置信的。该概念的提出，对利用博弈论方法研究货币政策问题奠定了基础。

二、纳什均衡在货币政策效应中的应用

在理性预期条件下，我们考察一期的货币政策博弈均衡。假定中央银行的目标成本函数为：

。

其中：π为通货膨胀率；y为实际经济增长率；y * 为中央银行期望的经济增长率。

根据卢卡斯供给曲线：y = yn + α(π − πe),α > 0.其中：

为潜在经济增长率;

为公众的预期通货膨胀率：a表示非预期通膨胀对经济的影响程度，即总供给曲线的斜率。

假定α=1,即：y = yn + (π − πα)

同时假定中央银行对货币增长有完全的控制能力．公众的预期完全理性不存在真实供给冲击和货币流通速度变化的影响．通货膨胀率π等于货币供给增长率m,通货膨胀预期πα。等于货币供给增长率me，中央银行期望的经济增长率与潜在的经济增长率相等。有

。

令公众的目标函数为避免由于预期误差导致的通货膨胀之害，因此可把公众的效用函数定义为：U = − (m − me)2

可得该货币政策博弈的支付矩阵如下：

中央银行策略(m)公众策略(me)010(0,0)(0,0,5)1(1,-1)(0,5,0)

矩阵中m=0表示中央银行选择零的货币增长率 m=1表示中央银行选择正的货币增长率：公众策略的含义同上。由支付矩阵可知对中央银行来说，m=1的效用严格优于m=0的效用．m=1为其最优策略。在理性预期下，公众迅速认识到中央银行会选择正的货币增长率，其必然选择m=1以使其效用最大化,该博弈模型的纳什均衡是中央银行选择正的货币增长率,公众选择正的通货膨胀率预期，效用函数为(0,5,0)。均衡结果显示货币政策只会影响通货膨胀率而真实产出不变。

货币政策博弈具体表现为货币政策的决策和执行过程中存在动态不一致性问题。博弈主体在当前做出的关于未来的最优决策，在决策执行时对决策制定者已不再是最优决策．因而他必然要调整其决策。例如在公众预期形成之前对于货币政策制定者来说，零通货膨胀(或较低通货膨胀)可能是最优的选择。因而为了影响公众预期，他可能在此选择和许诺他将实行零通货膨胀(或较低通货膨胀)。但是，当公众预期形成以后零通货膨胀(或较低通货膨胀)对政策制定者来说已不是最优决策。为了获得非预期通货膨胀对经济增长和就业增加的刺激作用，政策制定者必须实行正的(或更高的)通货膨胀．在完全信息条件下公众知道政策制定者会这样做．因而他的许诺是不可置信的。具有理性和完全信息的公众不会被其愚弄．最后结果必然是被预期到的正的(或更高的)通货膨胀。相机选择货币政策的这种通货膨胀(通货紧缩)倾向是由该博弈结构内生性决定的，即该均衡(纳什均衡)允许了不可置信的威胁策略的存在，中央银行关于零通胀(或低通胀)的许诺是不可置信的。

要消除货币政策的通货膨胀(通货紧缩)倾向必须消除这种不可置信因素——中央银行在公众预期形成之前承诺其将毫不改变地执行单一规则的货币政策通过承诺行动中央银行获得了影响公众预期的能力。因而，在选择其货币供给增长率时．就必须考虑它对公众预期的立即和充分的影响就不能期望制造非预期通货膨胀(通货紧缩)来刺激经济、增加就业或为预算融资。这就是说，提高政策的稳定性和可信程度是消除通货膨胀(通货紧缩)的关键。