博弈最优策略精选(九篇)

前言：一篇好文章的诞生，需要你不断地搜集资料、整理思路，本站小编为你收集了丰富的博弈最优策略主题范文，仅供参考，欢迎阅读并收藏。

博弈最优策略

第1篇：博弈最优策略范文

关键词：机械化；重复博弈；最优反应动态

中图分类号：S－1文献标识码：C文章编号：0439－8114（2011）12－2575-03

Game Analysis of the Best Response Dynamics in Agro－technical Popularization

WU Zhe，LI Jing

（School of Economics， Yangtze University， Jingzhou 434025， Hubei， China）

Abstract： Promoting the development of agricultural technology in china was contributed to improve the standard of living of peasantry， to increase their incomes and to push the development of agriculture in our country． The popularization of agricultural technology through the bounded rationality repeated game approach and the best-response dynamics theory was analyzed． And at last some suggestions for the policy were given．

Key words： mechanization； repeated game approach； best-response dynamics

改革开放以来，我国农业和农村经济取得了较快的发展，正是由于农业经济的发展，使我们对如何发展农业，发展怎样的农业等发面有了新的认知，同时也提出了发展现代农业的要求，本文主要从农业技术推广的辐射效应论述我国现代农业的发展。

1农业发展现状

1．1机械化程度低

我国主要的粮食生产区分布在东北，黄淮海地区以及长江中下游地区。这些地区土地面积占全国总土地面积的22％，2003年耕地面积和总人口分别占全国的约53％、51．8％，粮食播种面积占全国的59％，粮食总产占全国的约61％。其他地区由于经济发展和地形等制约因素，粮食种植面积相对较小［1］。据统计测算，到2007年底我国耕、种、收的综合机械化水平已达到41％，农业劳动力占全社会从业人员比重已降至38％左右。当前我国农业机械化整体水平，只相当于韩国20世纪70年代水平。尽管我国机耕水平接近60％，小麦生产80％实现了机械化，水稻机械收割水平接近34％（2005年数据），但大宗农产品生产总体机械化水平较低，玉米机械收获水平仅有8％，水稻机械插秧水平只有11％，花生、马铃薯机械收获发展刚刚起步，油菜、甘蔗、园艺作物等优势农产品机械化基本空白［2］。

1．2农村劳动力素质偏低

在我国农村转移劳动力中大多数是受教育年限相对较长的中、青年劳动力。据统计，2000年，21～25岁的农村劳动力中有67．2％从事非农业活动，年龄段在26～30岁、31～35岁、36～40岁、41～50岁的农村劳动力从事非农业活动的比例依次为52．5％、47．6％、43．3％、37％。根据《中国农民工问题研究总报告》提供的资料显示，2004年，全国农民工中16～30岁的占61％，31～40岁的占23％，41岁以上的占16％；农民工的平均年龄为28．6岁；初中文化程度的占66％，接受过各种技能培训的占近24％［3］。可以看出，外出农民工平均年龄比较年轻，同时也是农村劳动力中受教育程度比较高的群体。虽然我国农村有大量的剩余劳动力，由于受教育程度较高的中、青年劳动力外出务工，农村只剩下老幼妇孺，必将会对农村经济的发展造成影响。由于留守农民的文化水平不高，致使他们习惯于其所掌握的落后生产方式，对外界的新事物缺乏兴趣，对信息、新技术的认识能力、消化能力都不高。这就使得许多新知识、新成果、新技术难以在农民的生产活动中得到应用和推广，导致农业科技成果转化率低。同时，农民不太了解市场经济运作的规律，不能及时捕捉经济信息从而做出合理的经济决策，造成很多农产品不能通畅销售，达不到提高农民收入的目的。农村留守农民文化素质偏低是农业科学技术推广难的主要因素。

农业技术近年来在我国农业发展过程中发展较快，但相对于日益增长的工业化进程，农村技术推广仍然存在障碍。农业技术能否快速有效的扩展直接关系到我国农业的发展和农民的生活水平。

2博弈分析

最优反应动态（Best－response dynamics）是进化博弈理论中典型的动态机制之一．该机制适用于少数有快速学习能力的有限理性博弈方之间的重复博弈和策略进化［4］。在此机制下，认为博弈方虽然缺乏在复杂局面下准确判断和全面预见的能力，但是具有较快的学习能力。在一次博弈结束之后，博弈方会对本期结果进行分析、总结，对不同策略的结果做出比较正确的事后评估并相应调整策略［5］。

2．1基本模型

首先，假设我国各地村庄作为行为主体，他们具有相当快的学习和一定的分析能力，同时又是有限理性的，这样的假设与实际情况是比较吻合的。所以，采用具有快速学习能力的有限理性博弈方之间的重复博弈模型。假设图l中得的矩阵为各村庄之间的博弈。每个博弈方都有两种策略选择：采用新技术（设为A策略）；不采用新技术（设为B策略）。当博弈双方都采用A策略时，双方的得益都为α；当博弈双方都采用B策略时，双方的得益都为β；当双方采用的策略互不相同时，采用A策略的一方由于采用新技术将付出一定的代价（如资源共享、要素流动等）γ，其得益为β－γ；采用B策略一方由于搭便车等行为则从对方获得了额外好处）γ，其得益为β＋γ。其中，α－β＞＞γ。

从得益矩阵可以看出，得益矩阵表示的双方博弈，又称为“协调博弈”，有两个纯策略纳什均衡（A，A）、（B，B），其中（A，A）是帕累托上策均衡。但是，如果考虑了博弈方相互对对方理性的信任问题，或者对风险的敏感性等因素，那么均衡（B，B）则更可能出现。

2．2最优反应动态

下面开始分析，随着时间的推移，各地村庄采用新技术与否的博弈策略给我国农业带来的不同影响。假设各村庄两两之间进行上述博弈。由于各方都是有限理性的，但又具有快速的学习能力，他们能对上一期的博弈结果进行总结，并立刻做出相应的策略调整，以使当期能够实现收益最大化。同时假设各村庄之间的交往具有重叠交互作用的特征，即同一村庄可以同时与不同的村庄进行博弈。

假设我国各村庄都处于一个圆周之上，每个村庄都与各自的左右邻居进行重复博弈。我们下面将按照从特殊到一般的思路，来讨论圆周博弈中的最优反应动态。

2．2．1考察5个村庄分布处于圆周上5个不同位置的情况我们假设有5个村庄分别处于圆周上的5个不同位置（图2），每个位置的博弈方可能采取A策略，也可能采取B策略。所以，初次博弈共有32种可能的情况，其中包括一种全部采用A策略，一种全部采用B策略的情况，其他都是两种策略均有人使用。

本文为全文原貌未安装PDF浏览器用户请先下载安装原版全文

我们假设xi（t）为在t时期，博弈方i的邻居中采用A策略邻居的数量，该数量有0、l、2可能值。相应地，采用B策略邻居的数量为2－xi（t），也有0、1、2可能值。针对第t期的xi（t），博弈方采用A策略的得益为α×xi（t）＋（β－γ）×［2－xi（t）］，采用B策略的得益为（β＋γ）xi（t）＋β×［2－xi（t）］。根据最优反应动态机制，当

α×xi（t）＋（β－γ）×［2－xi（t）］＞（β＋γ）xi（t）＋β×［2－xi（t）］

即xi（t）＞2γ／（α－β）时，博弈方i在t＋1时期会采用B策略。

已知α－β＞＞γ，则2γ／（α－β）＜1由于xi（t）只能取0、l、2整数，在实际上，如果在t时期博弈方i的两个邻居中只要有1个采用A策略，那么博弈方i在t＋1时期就会采用A策略；如果两个邻居都没有采用A策略，那么博弈方i在t＋1时期就会采用B策略。由此可以得出，当5个博弈方初次全部采用A策略（B策略）时，最终的稳定状态为所有博弈方都采用A策略（B策略）；如果在初次博弈中有1个博弈方采用了A策略，而其他博弈方都采用B策略的时候，那么这5个博弈方经过4个时期的反复策略调整，最终收敛到了所有博弈方都采用A策略的稳定状态。图2给出了初次博弈只有一方采用A策略的最优反应动态过程。

2．2．2考察有6个村庄分布处于圆周上6个不同位置的情况如果在初始博弈中，有1个博弈方采用了A策略，而其他博弈方都采用B策略。按照同样的推理，可以得出，最优反应动态并没有使6个博弈方最终收敛于全部使用A策略的稳定状态，而是在（B，A，B，A，B，A）和（A，B，A，B，A，B）之间周期变动。也就是说明，每个博弈方都会在A策略和B策略中徘徊不定。如果在初次博弈中，有相邻的两个博弈方都使用了A策略，其他博弈方仍然使用B策略。那么，最优反应动态可以使得所有博弈方最终都收敛于全部使用A策略的稳定状态。如果在初始博弈中，有不相邻的两个博弈方采用了A策略（此两方之间存在另一个采用B策略的博弈方），而其他博弈方采用B策略，最优反应动态也不能使所有博弈方都收敛到全部使用A策略的稳定状态，而是又陷入了（B，A，B，A，B，A）和（A，B，A，B，A，B）之间的周期变动，与第一种情形（只有1个博弈方采用了A策略）的结果相同。如果在初始博弈中，有不相邻的两个博弈方采用了A策略（此两方之间存在另外两个采用B策略的博弈方），而其他博弈方采用B策略，各个博弈方通过反复调整策略，其间会出现相邻的两个博弈方同时采用A策略的情形，这种情形与上文的第二种情形本质上是相同的。所以，最优反应动态最终使所有的博弈方收敛于全部采用A策略的稳定状态。

通过以上对特定奇偶数量的博弈方的分析，我们不难推广到一般的情况，即存在n个村庄处于圆周上的n个不同位置，可以得出下列命题。

命题1：当所有n个博弈方在初次博弈中都采用A策略（B策略）时，最终的稳定状态则为所有的博弈方都采用A策略（B策略）。

命题2：当n为奇数时．在初次博弈中，如果有一个博弈方采用了A策略，其他博弈方采用B策略，那么各个博弈方经过多个时期的反复调整政策，最终能够收敛于所有博弈方全部采用A策略的稳定状态。

命题3：当n为偶数时．如果在初次博弈中，有一个博弈方采用了A策略，其他博弈方采用B策略，那么，最优反应动态无法使所有博弈方收敛于稳定状态，各博弈方对策略的调整只能陷入周期变动。

命题4：当存在n个博弈方时，如果我们通过安排博弈方在初次博弈中的策略，使得在重复博弈到达某一期时，出现相邻的两个博弈方同时采用了A策略。那么，经过之后的有限多次博弈，最优反应动态将最终使得所有博弈方收敛于全部采用A策略的稳定状态。

2．3结果分析

通过以上的分析可知，最优反应动态是否能够使得所有博弈方都收敛于采用A策略的稳定状态，主要取决于各个博弈方在初次博弈中的策略分布，此外，还与博弈方在得益矩阵中得益大小有关。

2．3．1关于各个博弈方在初次博弈中的策略分布根据命题4可知，如果某种策略的初始分布使得重复博弈在将来某一期中出现相邻的两个博弈方同时采用A策略，则最优反应动态最终会使所有博弈方达到全部采取A策略稳定状态。因此，要求各村庄在采用新技术的同时提升自身的素质和文化修养。

2．3．2关于各个博弈方在得益矩阵中的得益大小根据博弈模型可知，当xi（t）＞2γ／（α－β）时，博弈方i在t＋1时期会采用B策略。由于我们假设（α－β）＞＞γ，故2γ／（α－β）＜1，即只要在时期博弈方i的两个邻居中只要有1个采用A策略，那么他在t＋1时期就会采用A策略。若要保证（α－β）＞＞γ，必须使得我国农村中各村庄采用新技术的得益远大于不采用新技术的得益。同时，还须使得各村庄采用新技术的成本γ尽可能小［6］。

3结论

通过以上的博弈分析可知，我国农民是否采用新技术取决于不同的因素，由不同的演化路径，可以产生不同的结果。首先各地政府要根据各自地域的差异，采用不同的技术及推广机制，做到因地制宜。其次，政府应加大在农村的资金投入及农业科技人才的引进。最后，各地方政府应加大对农民的农业技术培训，使其掌握先进的农业技术，增加农民的收入。同时，还应加强各村庄之间技术信息的交流，加强合作。

参考文献：

［1］杨进华．安徽省基层农业技术推广体系改革的思考与建议［J］．安徽农学通报，2007，13（12）：10－11．

［2］高启杰，谢建华．关于基层农业技术推广体系发展与改革的思考［J］．调研世界，2005，16（12）：13－14．

［3］孙中才．农业与经济增长［M］．北京：气象出版社，1995．

［4］罗伯特・D・史蒂文斯．农业发展原理――经济理论和实证［M］．南京：东南大学出版社，1992．

［5］吕健，余政．文化生产力发展：一个进化博弈的视角［J］．世界经济情况，2008，10（10）：8－9．

［6］陆谨．基于演化博弈论的知识联盟动态复杂性分析［J］．财经科学，2006，10（3）：6－8．

第2篇：博弈最优策略范文

关键词：博弈模型；网络安全；最优攻防决策

前言

博弈论在网络安全问题中的应用，注重在事前进行分析和研究，从而保证信息网络安全。博弈模型的构建，从网络攻击和防御两个角度出发，探讨了网络防御过程中存在的脆弱点，通过对这些脆弱点进行改善，以期更好地提升网络安全。目前应用于网络安全最优攻防决策的方法，主要以状态攻防图为主，通过结合安全脆弱点对系统安全情况进行评估，并结合效用矩阵，得出最优攻防决策。最优攻防决策方法的利用，能够弥补当下防火墙以及杀毒软件被动防御存在的缺陷，更好地保证网络安全。

1博弈模型与状态攻防图分析

博弈模型是一种事前进行决策的分析理论，在具体应用过程中，需要考虑到理论与实际之间的差异性，从而保证博弈模型能够对安全问题进行较好的解决。博弈模型在应用过程中，要注重对状态攻防图进行把握。状态攻防图是一种状态转换系统图，其公式为：),,,(GDSSTSSADG，公式中S表示为状态节点集，反映出了网络的安全状态；T表示图中边集，反映了网络安全状态的变化关系；DS则表示了网络的初始状态；GS为攻击目标集合。状态攻防图在具体应用过程中，需要对其生成算法进行把握。首先，需要输入的信息包括以下几点：网络拓扑的可达矩阵；脆弱点集合；可利用规则；初始状态节点；其次，对状态攻防图SADG进行输出。状态攻防图的输出，主要包括了以下内容：网络拓扑可达矩阵RM；初始安全状态节点So；主机节点集合；vuls集合等。在对状态攻防图利用过程中，需要根据状态变迁情况，对状态攻防图进行相应的完善，以使其功能和作用得到有效发挥。

2网络攻防博弈模型构建

在进行网络攻防博弈模型构建过程中，要对网络安全防御图和攻防博弈模型的内容有一个较好的了解，从而利用网络安全防御图，对防御节点信息进行把握，保证系统能够有效的抵御攻击。同时，网络攻击博弈模型构建过程中，要对成本和收益进行较好把握，建立完善的攻防博弈模型，对攻击和防御因素进行较好把握。2.1网络安全防御图网络攻防博弈模型构建过程中，需要对网络安全防御图内容予以一定的认知和把握，从而为网络攻防博弈模型构建提供有利条件。从网络安全防御图的本质来看，其是一个6元组，对其可以利用公式进行表示：StsSS}...0..{SdSSa，其中S为整个网络安全防御图的节点集，t代表了网络节点状态下的网络安全情况，So反映了最初阶段的集合状态；Ss则代表了攻击目标集合；Sa表示对抗攻击集合；Sd则代表防御集合。在对SStS}...0..{SdSSsa应用过程中，要对每一个节点的网络安全状态进行把握，并对网络访问能力进行分析，从而了解到攻击者可能采取的攻击方式。2.2攻防博弈模型攻防博弈模型的利用，能够有效地构建最优防御策略，从而在成本和效果方面，都能够获得较好的收益。攻防博弈模型在利用过程中，其模型是一个3元组，利用公式在对攻防博弈模型表达时，攻防博弈模型=USN},,{，其中，N代表了攻防博弈模型的设计者；S反映出了策略集合；U则代表了攻防策略。在利用攻防博弈模型在对网络安全问题分析过程中，网络安全产生的损失，表示了攻击者所获得的利益。在对攻防博弈模型选择过程中，需要对相关算法进行较好的把握。具体步骤如下：第一步，确定初始化攻防博弈模型：aPSdSadP),(),,(),,(UdUa；第二步对攻击策略集合进行构建；第三步建立防御策略集合：sdnsdsdSd},...2,1{；第四步，对防御策略进行给出：UdijtDeaitiDcos)(cos.costDe；第五步，生成矩阵U；第六步对SaPPad),(),,(),,(UdUSda进行求解。通过利用攻防博弈模型USN},,{，能够对最优攻防决策方法进行把握，从而为网络安全提供重要帮助。

3基于博弈模型的网络安全最优攻防决策方法实例分析

在对博弈模型基础下的网络安全最优攻防决策方法分析过程中，通过利用实例，可以对这一问题进行更好的认知和了解。本文在实例分析过程中，网络拓扑图设计情况如图1所示：结合图1来看，网络拓扑中主要涉及到了互联网、攻击主机、防火墙、server1-4数据节点、路由器等装置。在进行实例分析过程中，脆弱点的设计，主要为权限提升类弱点。关于脆弱点的信息，我们可以从表1中看出：在对网络各节点中的脆弱点扫描完成后，需要对攻击路径进行较好的把握，从而对攻击成功的概率和危害性进行分析，以保证网络安全防御能够具有较强的针对性和可靠性。关于攻击路径问题，我们可以从表2中看出：针对于攻击方，为了保证系统安全，防御方需要针对于攻击方，提供相应的解决对策。对此，利用博弈模型进行最优攻防决策过程中，具体内容我们可以从下面分析中看出：首先，应对于Server1节点的最优攻击策略在于对“2005-0768”的脆弱点进行利用，从而对这一节点进行攻击，获取用户权限。用户在防御过程中，需要对Server1的节点进行升级，从而保证对攻击方进行有效的防范。其次，在对Server2节点进行攻击过程中，其脆弱点为“2005-1415”和“2004-2366”节点，从而对用户权限进行获得。用户在进行防御过程中，需要对Server1的GoodTeshetserverTeln节点进行升级，并对Server2中的“2005-1415”节点和“2004-2366”节点进行升级，这样一来，考虑到攻击成功的概率64.6%，需要对防火墙等防御系统进行更新，以避免系统遭受攻击。再次，在对Server3进行攻击过程中，首先对Server1的权限进行获取，之后利用Server2的脆弱点攻击Server3，获取Server3的用户权限。用户在进行防御过程中，需要针对于Server3的脆弱点对防御系统进行更新。最后，在对Server4攻击过程中，需要获取Server1、Server2、Server3的权限，从而攻击Server4的脆弱点2002-0694，攻击成功率在70.7%左右。在进行防御过程中，需要对Server4的脆弱点进行更新，并利用Sendmail补丁，以避免系统遭受攻击和入侵。

4结论

第3篇：博弈最优策略范文

关键词：委托问题；信任机制；重复博弈

中图分类号：F270.7 文献标识码： A 文章编号：1003－3890（2008）10－0031-04

一、委托问题

委托理论兴起于20世纪60年代末至70年代初（Wilson，1969；Ross，1973），它是近二三十年来西方企业契约理论的最重要的发展。根据詹森和麦克林的理论，委托关系就是“一个人或一些人（委托人）委托一个人或者一些人（人）根据委托人的利益从事某些活动，并相应地授予人某些决策权的契约关系”①。在现实委托关系中由于不确定性、信息不对称、交易费用等因素的客观存在，加之人与委托人的目标函数不一致，必然导致“委托问题”并造成高昂的成本。笔者将在遵循以往委托问题分析的逻辑之上，引入信任机制，并基于此来进一步研究关于委托问题的治理。

二、问题信任机制治理的动因――博弈分析

（一）一次性信任博弈

从现代博弈理论看信任关系，信任关系事实上构成了一种博弈行为，即信任博弈。因此，用博弈理论来分析信任机制治理的合作关系是一种有效并且科学的分析方式。博弈方之间的博弈一般是从简单的一次性博弈到复杂的多次重复博弈，我们不妨也将委托双方之间信任的博弈分析分为这样两个阶段，分别进行详细的研究与比较。

假设：委托关系中两企业之间进行博弈，委托方企业A与方企业B，两者在委托过程中的行为可以归纳为两种：一是信任，即一方行动时考虑对方利益，同时相信另一方也会考虑对方的利益，以保持今后的持续合作；二是不信任，一方行动只考虑自己的利益，同时相信另一方也只考虑自己的利益并不管今后的合作。即企业A的策略空间为｛信任，不信任｝，企业B的策略空间同样为｛信任，不信任｝，双方在合作过程中，由于对对方都存在着一定的怀疑心理而进行博弈，并且在博弈过程中，由于企业都是理性的，所以其行为是理性的、均衡的，即不管企业A采取怎样的策略，企业B总是选择对自身最优的策略，反之亦然。在信任博弈的第一阶段中，在一次交易的博弈中，当企业A采取信任策略时，企业B有两种策略可以选择：信任和不信任。选择信任策略，两个企业都可以获得的收益为R1；选择不信任策略的话，企业B的机会主义行为可使其得到的收益将达到R2（R2>R1），并造成企业A的损失为R1-R2，很显然，企业B一定会选择不信任作为自己的交易策略以获取更大的利益。企业A采取不信任策略时，企业B若选择信任策略，企业A同样可以因其机会主义行为而在一次性博弈中获取收益R2，同时企业B为其信任行为而付出成本R1-R2；企业B若选不信任策略、不计谈判等成本的话，双方都不会从中获益。上述四种可能的过程组合如表1所示：

从表1中不难看出，该博弈的唯一纳什均衡是｛不信任，不信任｝，这是个囚徒困境解。这时每个企业得到的收益是0，帕累托最优无法实现，委托双方的收益最小。委托关系要获得，就会寻求信任以改变一次性博弈的低效率，因此进入了博弈的第二个阶段。

（二）无限次重复博弈

在第二阶段，各企业间为维持合作关系得到“共赢”，从而开始进行无限次重复博弈（Repeated Games）。这时企业选择的是触发策略（Tiger Strategy），即先试图信任，一旦对方不信任，其行为偏离了对双方信任都有利的轨道，便立刻“以牙还牙”，采取一次性博弈纳什均衡的策略进行报复。根据表1中所给出的博弈矩阵中的数据，假设企业B已采取触发策略，若企业A亦采用此触发策略，这一博弈结果为（信任，信任）（R1，R1），企业A、B由此得到每次信任的获益为R1，在无限次重复博弈后，企业A、B最终的总收益为

R1×（1+σ+σ2+…）=R1/1-σ（σ为贴现系数，且0

而相反的情况下，一旦企业A做出偏离上述触发策略的行为，在企业B已采取了信任策略的情况下选择欺诈，这时博弈的结果就变为｛信任，不信任｝｛R1R2，R2｝，企业A由此得到的收益为R2，高于不偏离触发策略的获益R1。但是，从第二个阶段开始，企业B将选择一次性博弈纳什均衡的策略进行报复，从而将不信任策略作为自己永久的选择，从第二次合作开始，两个企业间的交易合作行为的策略空间变为｛不信任，不信任｝（0，0），企业A从此获得的收益只能是0。在无限次重复博弈后，企业A最终的总收益折现为R2+0×（1+σ+σ2+…）=R2。因此，当R1/1-σ≥R2，即σ≥1-R1/R2时，企业A采取信任的合作策略更加有利。因此，只要贴现系数值足够大，博弈方就会更加看重长远利益，放弃只顾眼前利益的机会主义行为，双方就会建立起相互信任的长期合作关系。

三、问题信任机制治理的有效性

1. 委托理论的假设前提和分析逻辑。委托理论遵循的是以“经济人”假设为核心的新古典经济学研究范式，并以下面两个基本假设为前提：（1）委托人和人之间的利益相互冲突，行为目标都是为了实现自身效用的最大化；（2）委托人和人之间信息不对称。

在上面两个假设前提下，委托关系的确立需要满足两个必备条件：（1）委托人支付给人报酬带来的效用要不低于人从事其他事务所获得的效用（市场机会成本）。如果低于这一效用，人就不会参与该契约，委托关系不成立，这一条件构成了委托分析的参与约束。这个最低效用叫保留效用，记为u。（2）在信息不对称情况下，委托人要使契约可以执行，必须考虑人自身的利益。委托人由于观察不到人的努力水平，所以无法将它写入契约。因此，委托人期望的努力水平也必须符合人自身的利益，即委托人为实现自身效用最大化而要求的人的努力程度也要使人自身实现效用最大化，这就是激励相容约束条件。

因此，委托理论的基本分析逻辑是：在激励相容约束和参与约束两个条件下寻找委托人设计的最优契约，让人的努力水平符合委托人的利益。

2. 信任机制解决问题的有效性。为了说明信任机制在解决问题过程中的有效性，我们延续上面委托理论的基本逻辑，并以双边理论模型（Holmstrom，1971）为例首先分析在信息不对称的条件下问题的求解情况。

（1）模型描述。令e表示人的努力程度；θ表示自然状态；x表示结果（如产量、利润等）；u表示人的效用函数，且u′>0、u″0、v″

委托人期望效用函数最大化：

max∫?淄（x-s）f（x，e）dx（1）

理性人的参与约束：

∫u（s）f（x，e）dx-c（e）?叟u（2）

人激励相容约束：

max∫u（s）f（x，e）dx-c（e）（3）

即双边委托问题转化为在参与约束和激励相容约束两个约束条件下，求解委托人效用函数最大值的问题，问题的答案就是委托人所设计的契约应具有的特征。

（2）信息不对称条件下问题的求解。在信息不对称的条件下，为分析方便，我们假定人的努力水平只有两种状态eH、eL，相应地，人为此付出努力的负效用分别是cH、cL且cH>cL，两种努力水平下产出的条件密度函数为fH（x│e）、fL（x│e）。为了使人选择高努力水平，委托代人设计的契约必须是使得人支付取决于最终结果，而且必须是大于低努力时获得的支付或效用，即要求因提供高努力而获得的相关效用要大于增加努力而带来的负效用。此时，委托问题转化为：

最大化委托人效用：

max∫?淄（x-s（x））f（x）dx（4）

面临激励相容约束：

∫u（s）fH（x）dx-cH?叟∫u（s）fL（x）-cL（5）

面临参与约束：

∫u（s）fH（x）dx-cH?叟u0（6）

通过对公式（4）、（5）、（6）运用拉格朗日乘数法求解，得出最优契约解（契约特性）为：

=?姿+u（）（7）

其中，λ、μ分别为参与约束和激励相容约束的拉格朗日乘数因子，被称为似然率（likelihood ratio），表示的是结果x传递努力水平eH的准确程度，其值越小，表明传递努力的信号就越强。

当μ>0（Holmstrom，1979）时，意味着报酬合约s会随着x的变化而改变，最优的风险分担无法达到，即激励人努力工作的要求和最优风险分担之间存在着不可避免的冲突。这是该模型一个重要的结论，它的经济含义就是资源的分配无法达到帕累托最优，换言之（7）式的结果是次优的。

（3）引入信任后的问题求解。现在我们将信任机制导入到上述问题求解的前提条件之中。在前面我们看到，只要贴现值够大，双方在长期内的信任就可以实现。在委托双方相互信任的情况下，一方面，由于会有更多的机密信息共享和相互之间的信息沟通，委托人可以根据这些信息证实人的努力水平；另一方面，由于双方是相互信任的，那种为机会主义提供可能性的不完全信息已没有意义。所以，我们不妨假设此时双方实现了信息对等，委托人可直接根据人的努力水平进行奖惩，人也根据自身利益最大化选择努力水平。因此，不再需要激励相容约束条件。此时，问题转化为在参与约束条件下，求委托人效用最大化的解。

根据公式（1）和（2），采用拉格朗日乘数法，我们可计算出最优解为：

λ= （8）

其中，λ（常数）是参与约束的乘数。这一解表明，无论最终结果x如何，在信息对称情况下，委托人与人的边际效用之比保持不变。这类似于刻画帕累托有效境况的边际替代率相等的条件，意味着在风险对称的情况下，可以实现帕累托最优。当然，现实中不会存在完全的信息对称，但是随着信任程度的提高，委托双方会有更多的信息共享和沟通，不对称会逐步减少，帕累托有效境况会不断改进，无限逼近于最优。

四、结束语

笔者利用简单的博弈模型分析了委托关系中信任存在的动因，认为在长期合作的过程中，由于存在着无限重复博弈，委托双方会选择相互信任，虽然在实际合作中不可能有无限次重复博弈，但Fudenbery和Maskin（1986）证明，只要重复博弈的次数足够长，参与人有足够的耐心，无限次重复博弈的“无名氏定理”在不完全信息的有限次重复博弈中也成立。在对信任机制治理的有效性分析方面，在利用双边模型分析的基础上引入信任，从而使信息不对称的条件得以改善，得到了帕累托有效无限改进的效果。为了方便研究，我们在分析过程中将委托人与人同时设定为风险规避的，在今后的研究中这一点值得进一步扩展。

参考文献：

［1］Mirrles，J. The Optimal Structure of Authority and Incentives within an Organization［J］，Bell journal of Economics，1976，（7）:105-131.

［2］张维迎.博弈论与信息经济学［M］.上海：上海人民出版社，2007.

［3］何亚东，胡涛.委托理论评述［J］.山西财经大学学报，2006，（3）.

［4］Holmstrom，B. Moral Hazard and Observability［J］.Bell Journal of Economics, 1979, （10）:74-91.

第4篇：博弈最优策略范文

关键词：组织冲突;博弈论;最优冲突管理;Morgan模式

一、前言

全球化和战略联盟使得行政管理过程中的压力和资源重新配置问题剧增。技术压力在组织内外产生了诸如丧失隐私、信息泛滥、缺乏面对面沟通、技能窘迫或知识匮乏得不到晋升等等方面的问题。企业庞大的集中控制的组织随之与分散的、变幻莫测的市场之间的冲突愈加频繁。这些发生在组织结构内部和战略层面之间的冲突，极大地影响组织的决策。

（一）国内外理论进展

现代管理科学对冲突的研究源于20世纪60年代，巴纳德和西蒙都认为组织冲突长存企业内部。“在一个大型组织里要所有人为其自身的个人利益工作而采取合作的方式不大可能。”J•klly，H•Assael都认为，组织中存在冲突对促进目标显露有积极作用。之后对组织冲突产生原因及处理研究开始获得进展，学者们开始发现压制冲突的传统管理思维和方法的不合理性。LouisR•Pondy认为，压制冲突的组织剥夺了自我调节和稳定成长的功能。60年代后，在组织管理和行为理论的研究中，都把冲突管理作为一项重要内容加以关注。如RossA•Mebber于70年代完成的《组织理论管理》、GaryJohns的《组织行为学》、Derslergary的《组织管理》和JohnM.Ivancevich和MechaelT.Martteson的《组织行为与管理》等著作，都对冲突的性质和形成原因、影响解决冲突问题的因素和解决冲突问题的途径等进行了较系统的研究。

相比西方管理学者的研究，国内管理学界对企业或其他组织冲突的研究尚处于起步阶段，80年代后期港台学者开始相关研究，从创新角度得出了一些具有时代特征的观点。如“缺乏冲突的团体容易陷入群体思考模式的陷阱。”“企业领导应该刻意维持良性冲突的产生，利用冲突激励组织进步。”等等。赖明正对组织变革中利益冲突和组织学习之间的关系进行了实证研究，提出在追求竞争力提升的同时,原先企业内利益均衡的态势也随着组织的变革而有所不同。胡文琦、范庆玉从分销渠道的角度对冲突关系进行了分析；张继征对企业转包过程中的冲突行为进行了评价并提出解决方法；张勇、张玉中分析了企业组织间冲突策略选择的影响因素；李霄、徐中和则利用博弈论对冲突管理的策略方法进行了推演等等。

（二）对冲突理论演进的简要评述

冲突（conflict）是指两个或更多相关联的主体，因互动行为所导致不和谐的状态。是个体对外部环境做出的过激反应，体现了决策意愿的个人化。

按照西方冲突理论，冲突过程一般分为五个阶段，即潜在的对立或不一致、认知和个性、行为意向、行为和结果。第一阶段也称为冲突的成因，一般概括为三类：沟通、结构和个人因素。认知和个性化阶段是指个体对冲突有知觉存在，并且个体有了情感上的投入。行为意向介于一个人的认知、情感和外显行为之间，它指的是从事某种特定行为的决策。行为阶段则是冲突双方公开地试图实现各自的愿望。结果阶段就是冲突对组织绩效影响的最后结果，即是功能正常还是功能失调的结果。激发功能正常的冲突是冲突管理的一项重要内容，当冲突出现的时候谈判是解决冲突比较好的办法。

组织内部成员之间面对一定的环境条件，在一定的规则下，同时或先后，依次或多次，从各自允许的行为或策略中进行选择并加以实施，并从中各自取得相应成果的过程构成了博弈论决策个体的特征。发生在组织内部的冲突则是由对立的目标、态度、行动所导致的组织内部或组织间的非合作博弈行为。本文试图引入博弈论观点，对给定理性局中人即组织成员在冲突中通过其最优选择追求个人效用最大化，最终达到博弈均衡的现象加以文本解释，寻找冲突管理各方合理策略下博弈的解，从而建立最优冲突管理方案。

二、织内冲突的博弈特征

使用严谨的数学模型研究冲突对抗条件下最优决策问题的理论称博弈论。如果一个博弈存在一个战略组合，任何参与人要改变这一战略组合都可能导致降低自身的效用水平（或只能保持原有的效用水平），因而任何参与人都没有积极去改变这一战略组合，这一战略组合称为该博弈的纳什均衡。冲突之所以发生可能是利益相关者(stakeholder)对若干议题的认知、看法不同，需要、利益不同，或是基本道德观、不同等因素所致。

冲突发生在复杂的组织内部，存在组织战略行为中的冲突加剧了博弈频次。Libby认为，组织是成员之间存在心理上相互依存关系的非简单个人集聚。组织具有相互依存、协作、分工和权威阶层的特征。［1，2］博弈论中的决策个体与微观经济学中的个体决策相比，博弈中的决策是相互依存的，即考虑了各个决策个体之间的相互影响。

基于事物矛盾性的认识，组织冲突假设辨证表现在：（1）冲突是不可避免的；（2）冲突对变化而言是不可或缺的要素；（3）只要对冲突进行很好的管理，其对全局效用的促进是正相关的；（4）充分利用冲突为对于集团组织结构和战略目标实现是有利的。冲突使组织内部产生了问题，但也为组织兴奋提供了必要的激励条件。在组织冲突中，决策个体不仅依赖于自己的选择，而且依赖于其他决策个体的选择，各个决策个体之间的相互影响在博弈决策中被充分考虑，个体的效用函数不仅依赖于自己的选择，而且依赖于其他决策个体的选择，个体最优决策μi(S)，是他人效用函数的函数μ3i(S)=μ(μ1(S)，μ2(S)，…，μi-1(S)μ，μi+1(S)μ，…，μn(S))(设i为博弈中的局中人，i=1，2，…，n；si表示局中人i的策略，S=(s1，s2,…,sn)表示n个局中人的决策向量，μi(S)记为局中人i的效用函数。从一定意义上讲，博弈论研究的是存在相互外部性条件下的个体决策问题，组织冲突同样是一次或多次相同外部条件下个体与个体、个体与组织、组织与外部环境间博弈的最优策略选择。［3］

三、一般性组织内冲突的原因及影响

Creighton,Moore,Amy,Bisno分别探讨冲突的根本原因，并归纳为：（1）程序冲突(proceduralconflict)。流程上发生问题，在责任权限模糊时可能发生角色冲突。［4］（2）资料或资讯冲突(dataorinformationconflict)。争夺稀缺资源引发冲突。（3）价值判断冲突(valueconflict)。随着组织不断扩大，交流机会和次数减少，成员对所在组织的归属意识得以增强，组织内竞争和文化相斥成为冲突的原因。（4）利益冲突(interestconflict)。报酬体系公平性导致的冲突。感觉到报酬体系中存在着不公平或发生偏离的情况，小集团间或人际关系上可能出现冲突。（5）关系冲突(relationshipconflict)。工作中的依赖关系导致的冲突。（6）情绪冲突(emotionconflict)。源于心理承受力、能力差异导致的冲突。研究和掌握容易导致冲突的原因的考虑方法，比防止非生产性冲突发生或者把非生产性冲突限制在最小化范围内更重要。

冲突结果是长程的，回避冲突和掩盖冲突同样能导致消极和懈怠的状态产生。Kast和Rosenzweig即强调不应忽视冲突在促进改革的积极的角色与功能。而冲突管理则是以系统、科学的方式来消除认知与价值差异等障碍，以达成协议的过程。其目的在冲突过程中减少可能的或是不必要的伤害，以促进有利冲突双方的结果。［5］冲突管理的目的也是在均衡博弈不利于解决冲突困局情况下，采取合作态度寻求最优解。

四、组织内冲突管理——对Morgan模式的一个博弈理解

运用博弈观点阐释组织冲突管理的难点就在于局中人所参与的每次博弈或多次博弈的得益。理人往往从自身最优策略选择出发以实现自身利益为目标参与博弈。

（一）Morgan的五种选择

GarethMorgan在其《组织印象》(ImagesofOrganization)中，说明在组织管理者在面临冲突时，可进行的五种模式选择（见图1）。冲突的消除从自我主张与协调性两维度考虑。自我主张性是指当事人使自身利益关系得到满足的意图；而协调性则是使他人的利害关系得到满足。据此可以把解决冲突的方法分为五类：（1）强制型：为利益坚持竞争，并以自身最优策略完全实现为目的，显示威力和强制力；（2）和解型：放弃自身利益做出让步，重视双方关系维持而不是竞争，也许不得已唯命是从；（3）回避型：双方都不轻易将其真实意愿外露的对策，没有信息交换；（4）姑息型：相互妥协处理冲突，即与其唯命是从，不如择机达成共识；（5）合作型：完全理性行动，基于充分合作双方共同决定寻找最优策略并采取行动。合作通常被视为解决冲突的最佳方案。

Morgan解决模式构成了非合作博弈的条件。博弈的过程就是各个理性的博弈方（当事人）选择自己决策的过程，当各博弈方都不愿或不会单独改变自己策略的策略组合存在时，或者说为了极大化自己的盈利（或效用），每一个局中人所采取的策略一定应该是关于其他局中人所取策略的最佳反应。［6］纳什均衡说明冲突管理也必须符合这样的规律：按照你愿意别人对待你的方式来对待别人，但只有基于他们也必须按同样方式行事。

（二）冲突博弈的困境解释

现实组织内冲突发生时由于缺乏互释的沟通，当事人双方处于对立面时必然表现为一种“囚徒的两难选择”。困境中每一方在选择策略时都没有“共谋”，他们只是选择对自己最有利的策略，而不考虑组织福利或任何其他对手的利益。也就是说，这种策略组合由所有参与人的最佳策略组合构成。没有人会主动改变自己的策略以便使自己获得更大利益。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。［7］双方在合作与抵制策略上首先想到自己，这样他们必然要陷入回避。只有当他们都首先替对方着想，或者相互合谋时，才可以得到最完美的和解。

组织内集团利益冲突中，局中人心态构成博弈困境。前者希望冲突解决以部门利益最大化为终极目标，后者想打破这样的均势，博弈的结果可能出现Morgan模式，诸如强制推行，单方和解，双方逃避或相互妥协几种解决方案。那么通过怎样的渠道才能在冲突人之间建立合作的基础，使局中人一定程度上能够站在对方的视角考虑问题，从而走出囚徒困境，最大化实现双方利益。而客观上，正当的逐利心态构成了人们正常与主要的行为动机。当冲突管理试图通过法律或者道德维系良好的社会秩序时，必须正视这种心态在各种博弈过程的深刻影响与具体作用。

（三）最优冲突管理——强制下民主配合制度创新

组织冲突多是个人目标实现与组织强调经济决策者的个人理性,强调不完全信息、不完全竞争条件下的经济分析，强调决策个体之间的相互影响和相互作用等外部性,强调通过规则、机制和制度的设计和优化在个人理性得到满足的基础上达到个人理性和集体理性的一致。根据有关冲突的研究，无论是业绩优异的公司管理者，还是业绩差的公司管理者，解决冲突的考虑首先均为合作型。然而次优方案的选择就差异很大，前者多采取强制姿态，而后者多采取姑息对策，由此可以导出最为有效地解决冲突的方法是强制的并以合作型为支持。由于合作型是采取基于民主解决问题的开放交流形式，可以说强制力下并给予民主的行动是解决冲突的最为有效的方法。［8］这也说明经济的博弈均衡并不一定是帕雷托最优的，个人理性和集体理性可能存在着矛盾和冲突，对于这种矛盾和冲突，不在于否定个人理性，关键是通过设计一种制度的创新，建立起一种新的使得在满足个人理性的基础上能够达到集体理性的机制。

Rummel认为冲突过程从平衡与不平衡中间移动，达成一种平衡。同时冲突关联利益人的关系也未必是全然相互竞争的，在运用冲突管理的原则与方法时，反而通常存在竞争与合作的混合关系，贯穿如：（1）对事（或问题）不对人；（2）重视利益而非坚守立场；（3）寻求互利的方案；（4）兼顾主、客观评估标准等态度，追求整合协商谈判（integrativebargaining），所谓的双赢（win-win）才有机会。［4］但纳什均衡博弈论由于仅关注个体行为的合理性。不可避免的是它在解决组织冲突中的局限性，博弈论描绘出困境，却难以解决困境。纳什均衡博弈论也不能从根本上保护博弈各方的利益，博弈不能带来共赢，却可能造成共输（simultaneity-loss）。［9］

参考文献：

［1］DEBORAHM.KOLB，JUDITHWILLIAMS.Breakthroughbargaining［M］.HarvardBussinessReview,2001：89~97.

［2］STEPENIEOVERMAN.Makefamily-friendlyinitiativesfly［M］.HRFocus,1999：14.

［3］莫燕，周建中.基于博弈论的企业技术创新对策研究［J］.技术经济2002（7）:10-12.

［4］弗雷德•鲁森斯.组织行为学［M］.王垒,译.北京：人民邮电出版社，2004.

［5］汪明生,朱斌妤.冲突管理［M］.北京：九州出版社，2001.

［6］刘仁军.组织冲突的结构因素研究［J］.南开管理评论，2001（4）:30-33.

［7］张维迎.博弈论和信息经济学［M］.上海：上海三联书社，上海人民出版社，2002.

第5篇：博弈最优策略范文

关键词：网上购物；信用问题；博弈

众所周知，网络购物时交易双方大都是通过聊天软件进行沟通，难以获知交易主体的真实性，而且产品信息主要是由卖方在个人网页上以文字或图片的形式进行说明，买方在收货之前并不能实地感知产品的质量，这使得网络交易中的信用问题日益突出，也成为电子商务进一步发展的瓶颈。鉴于此问题，文章从博弈论的角度对网络购物中的信用问题进行了分析。首先构建简单的一次博弈模型，

一、网上购物交易双方博弈模型

（一）模型的基本假定

网上购物时一个庞大复杂的系统，具体从交易主体划分，网上购物主要存在如下形式，企业与企业之间的电子商务（B2B）、企业与消费者之间的电子商务（B2C）、消费者与消费者之间的电子商务（C2C），为突出所分析问题的重点，这里就将交易主体笼统地定义为买方合卖方，游戏规则如下：

（1）博弈模型包括两个主体，即一个买方和一个卖方，具是理性人。

（2）博弈主体各有两种策略，即卖家有两种策略：诚信而出售高质量的产品，或者不诚信而出售劣质产品；买家也有两种策略：购买，或者不购买。

（3）博弈中参与人在选择策略时，二者之间的博弈是静态博弈。

（4）存在政府的监督。

（二）模型的建立

根据上面的假设我们可以将这个博弈看作是一次完全信息静态博弈。假设卖家方以P的价格出售产品，诚信卖方销售高质量产品的成本为Cp，买方购买了诚信卖方的产品的效用为U1（U1>Cp）.不诚信卖方提供劣质产品的成本加上欺诈成本为Cc，这里的Cc主要包括卖方销售劣质产品导致的法律的惩罚、名誉的丧失等，买方购买了劣质产品的效用为U2（U2

从以上假设可以得到买方和卖方的完全信息静态博弈模型，如表1所示：

表1：网上购物交易双方的纯策略博弈支付矩阵

（三）模型的分析

从表1可以看出：

（1）当P-Cp>P-Cc时，卖方选择诚信的收益大于选择不诚信的收益，该博弈存在唯一的纳什均衡点（U1-P，P-Cp）。当卖方选择诚信时，买方的最优策略是购买；当卖方选择不诚信时，买方的最优策略是不购买。另外一方面，当买方选择购买，卖方的最优策略是诚信；当买方选择不购买，卖方的最优策略还是诚信（-Co>P-Co）。在此种情况下，模型存在唯一的纳什均衡解（购买，诚信）。

由此可知纳什均衡解的关键在于卖方不诚信的欺诈成本Cc的大小。当这个因素足够大时，则卖方选择诚信策略。

（2）当P-Cp

我们可将这一模型扩展为一个完全信息下的混合策略博弈。它存在一个混合策略纳什均衡。现在我们假设买卖双方按照一定的比率，对表1进行重新定义：买方购买比率为Z，卖方诚信比率为[，其余与表1一致。分析如下：

假定买方选择购买策略的概率为Z（0Z1），选择不购买策略的概率为1-Z；卖方选择诚信策略的概率为[（0[1），选择不诚信策略的概率为1-[。则买方的期望收益函数为：

E1=Z[[*（U1-P）+（1-[）*（U2-P）]+（1-Z）[[*0+（1-[）*0]。

在这个博弈里，因为每个买方都是理性的经济人，所以每个买方都要选择适当的Z，以使自己的收益最大化。据此可以得到买家的最佳反应函数是：如果[

同理可得，卖方的期望收益函数为：

E2=[[Z*（P-Cp）+（1-Z）*0]+（1-[）[Z*（P-Cc）+（1-Z）*（-Cc）}。

可以得到卖家的最佳反应函数：如果Z< Cc/Cp， [=0；如果Z= Cc/Cp，0

现在我们可以在以Z为纵轴，[为横轴的直角坐标系中，把买方和卖方的最佳反应函数都画出来，两个反应函数重合的地方就是这个混合策略的纳什均衡，由此，我们得出了网上购物中买卖双方混合策略博弈的纳什均衡点。即买方以Cc/Cp的概率选择购买产品，卖方以（P-U2）/（U1-U2）的概率选择诚信对待卖方。

在以上这个完全信息静态博弈的分析中，买方仍有不购买商品的可能，卖方也仍有不诚信的可能。如何解决这个问题，需要我们进一步分析买方与卖方重复博弈的情况。

（四）重复博弈分析

在我们实际的网购交易中，买方和卖方一般都不只做一次交易，即使同一店铺有多个买方，我们依然可以假设卖方以往的信息是公开的，所有不同的潜在买方都知道这些信息，所以可以设定这些不同的买方仍为这个博弈模型中的同一个局中人。对于扩展的重复博弈模型，我们加入以下假设：同一卖方虽然可能有不同的潜在顾客，但我们仍然把这些顾客看成一个买家；"买家采取"冷酷策略"，即只要在重复博弈中，卖家有一次的欺骗行为，将触发买家在以后的策略中永远选择"不买"的策略。

根据表1，我们可以得出卖方的期望支付，当卖方一直保持诚信的期望支付要大于他一次不诚信而获得的支付时，他将会在每次交易中都保持诚信的策略。这样博弈的最终策略就是买方购买产品，卖方一直保持诚信。这就是重复博弈产生的信用机制，重复博弈解决了买家与卖家之间的"囚徒困境"，促进网购更好的发展。

二、结论与建议

目前，我国网上购物的电子商务市场正处于成长阶段，相应的法律法规还不够完善，即使卖方欺诈经营。也很难从法律条文的角度对其做出有力的规范。这就直接影响了卖方的信用。目前国内主要的电子商务平台如淘宝网、拍拍网等均对其网上商店设立了相应的管理规则。因此对于网络购物信用问题的改善，可以从以下方面着手：第一，提高政府的监督和惩罚力度。第二，提高交易合作的持久性。第三，建立消费者保障计划

参考文献：

[1]张维迎.博弈论与信息经济学[M].上海：上海人民出版社，2003.

[2]张睿，陈卫华.电子商务信任机制的研究[J].华中科技大学学报（社会科学版），2003，06.

[3]汤清，付阳.C2C电子商务中的博弈论分析[J].特区经济，2006，06.

第6篇：博弈最优策略范文

【关键词】消费者偏好；异质产品；博弈分析

1.引言

供应链是围绕核心企业，通过对信息流、物流、资金流的控制，从采购原材料开始，制成中间产品以及最终产品，最后由销售网络把产品送到消费者手中的将供应商、制造商、分销商、零售商、直到最终用户连成一个整体的功能网链结构模式[1]。供应链产品的定价是对成员间合作协调的优化，并假设双方是理性的，为获得最优利润而应采取的定价策略。本文讨论对象是具有一定差异性的异质可替代产品的定价博弈，考虑因素是由异质造成消费者不同偏好对企业定价决策的影响。

理论方面，国内外已有不少针对差异化异质产品定价的研究。王能民[2]从考虑产品提供者行动和不行动的两种情况讨论了绿色产品的定价问题；穆昕[3]等从产品差异化角度建立了两企业寡头竞争模型，证明了当产品环境质量成本递增，消费者对产品环境影响不同偏好情况下企业如何采用差异化战略提高竞争力；姜树元[4]等基于效用理论对产品功能进行评估，对差异产品进行模型度量；张宁[5]等以多项式Logit随机反应模型分析了顾客对产品的选择来确定产品的需求，王志江[6]等利用需求价格弹性和交叉弹性得出了相关产品定价与调整的数学模型；Portia Bass[7]等（2001）提出了消费者存在重复购买情况下的新产品扩充模型，并且对纵向隔代产品进入市场的过程进行了数量化研究。

现有的研究多针对差异产品的共性对定价的影响进行讨论和定性定量研究，比如将消费者的普遍差异纳入企业产品定价的决策分析中，通过对消费者层次定位、不同的消费环境、需求价格弹性等方面的研究得出相应产品组合策略，较少考虑消费者直接参与情况下的定价。本文主要考虑了消费者偏好对异质产品定价产生的影响，并以汽车市场为例，讨论了消费者对传统汽车和电动汽车不同偏好与企业定价决策之间的关系。

2.模型描述

消费者偏好来自产品差异，异质主要体现在产品的功能上，可分为基本功能和附加功能，两者又可以继续由更加基本的功能单元组成，同类异质产品的差异主要体现在附加功能上，是多方面性能特征的组合，比如，汽车的性能特征包括外观、安全，动力，经济，操作，环保等特性。产品的特征差异正是由消费者对不同产品性能特征的的偏好差异形成的，由此导致对产品需求价格的差异。不过，在市场环境下，差异化产品可以满足消费者多方面的需求，保障市场经济稳定运行，改善消费者生活质量。

2.1 模型假设与参数说明

假设1 汽车市场上有电动汽车和传统汽车，两者基本功能完全相同，附加功能只有环保差异，用绿色度和表示，显然。制造商批发价为，零售商加价率为，产品价格为，销售量为，制造商生产成本为和，零售商销售成本均为。

假设2 通过市场调查，消费者对和的偏好差异明显，假设当绿色度在一定范围内时，消费者偏好度与汽车绿色度成正比，因此令，表示消费者对产品A的偏好度，显然，称A为消费者偏好产品。

假设3 电动汽车上市后，刺激绿色消费者的需求，导致汽车产品的整体市场潜在需求量增大，市场增量用表示；同时，由于低碳经济与绿色消费观的普及，将吸引一部分原产品消费者进行需求转移，需求转移量用表示。

假设4 市场增量与消费者偏好度成正比，与偏好产品的价格成反比，令。

假设5 市场需求转移量与和共相关，相关系数为，且与成反比，与成正比，令，其中。特别的，当时，，说明在同价的情况下，消费者原因选择，符合市场情况。

2.2 基础模型建立

根据实际情况，按电动汽车上市前后将产品销售划分为两个阶段，第一阶段，只有传统汽车存在，此时市场需求：；第二阶段，电动汽车上市，原市场需求中一部分进行转移，可以分别得到和的市场需求：

（1）

（2）

为便于分析，令，可分别得到制造商和零售商的利润：

（3）

（4）

根据纳什均衡存在性定理[8]，可证明为的凹函数，为的凹函数，存在纳什均衡解。

3.模型求解

首先对和求导数：

3.1 静态纳什博弈

制造商最大收益函数为：，最优定价需满足方程组：

（5）

零售商商最大收益函数为：，最优加价需满足方程组：

（6）

联立方程组（5）和（6），此四元三次方程可以通过数值分析法可得到纳什均衡的近似解[9]。

3.2 动态Stackelberg博弈

为方便讨论，假设制造商在供应链中具有支配地位，制造商先行动，零售商根据制造商的批发价选择加价，博弈双方构成动态Stackelberg博弈。

设制造商给定和的批发价和，零售商最大收益函数为：，最优加价通过方程组（6）解得：

（7）

将代入方程组（5）可得：

（8）

通过递归，将（8）代入（7）中可得最优，再代入式（3）和（4）得到基于消费者偏好下的Stackelberg博弈均衡。

3.3 联合定价博弈

联合定价模型的分析对象是供应链系统整体的收益，对供应链博弈双方的收益函数进行联合求导得出决策关系式，再代入总收益函数使得整体收益最大。由式（3）和式（4）可得联合收益，根据纳什均衡存在性定理可以证明其为决策变量组的凹函数，存在最优纳什解。

决策模型如下：

（9）

联立式（5）和式（6）可得联合决策下，基于消费者偏好下的决策变量关系：

（10）

4.结语

完全信息下进行合作联合定价的收益高于纳什均衡和Stackelberg博弈，这在市场经济中是显而易见的，通过合作建立一个包含可置信威胁的协作契约，可以削弱纳什均衡囚徒困境和Stackelberg博弈发生的条件。消费者对产品的偏好基于产品本身的特性，针对其对供应链企业的定价策略有无实质性影响以及如何影响，通过模型建立和分析，可得出消费者偏好是通过市场需求的变化来影响制造商和零售商的产品布局和定价策略，同时得到消费者偏好和最优定价策略之间的数量关系，为博弈双方争取最优定价提供决策建议。

参考文献：

[1]马士华，林勇，陈志祥.供应链管理[M].北京：机械工业出版社，2000.41.

[2]王能民.绿色供应链的运作机制研究[D].西安：西安交通大学，2003.

[3]穆昕，王浣尘，李雷鸣.基于差异化策略的环境管理与企业竞争力研究[J].系统工程理论与实践.

[4]姜树元，姜青舫.基于现代效用的产品功能评估模型与方法[J].系统工程，2001，19（6）：83-87.

[5]张宁，卢兴普.多规格产品系列生产的随机响应优化决策[J].系统工程理论与实践，1997（9）：31-35.

[6]王志江.相关产品的最优价格调整策略[J].系统工程理论与实践，2000（1）：36-40.

[7]Portia Isaacson Bass， Frank M Bass. Diffusion of Technology Generations： A Model of Adoption and Repeat Sales 2001，11，working paper.

[8]张维迎.博弈论与信息经济学[M].上海三联书店，上海人民出版社，1996.

第7篇：博弈最优策略范文

一、国际会计准则的产生与发展

（一）国际会计准则的产生国际会计准则委员会（International Accounting Standards Committee， IASC）成立于1973年6月，最初由澳大利亚、加拿大、法国、德国、日本、墨西哥、荷兰、英国和美国的13个会计职业团体发起成立。IASC在其章程中提出两大目标：一是制定国际会计准则（IASs），现更名为国际财务报告准则（IFRs），推动其在世界范围内被接受和遵守；二是改进和协调会计准则（特别是各国国内准则）和程序，努力提高可比性。面对这两大目标，IASC进行了长期的努力，但是，在很长一段时间里，一些发达国家，特别是美国对国际会计准则的质量都存在疑虑，其认为，IASC制定的国际会计准则为了争取更多国家和地区的遵守，在会计处理方法上往往进行了妥协和让步，从而保留的较多的备选方案，这就影响了可比性和透明度。20世纪80年代末，一项关于国际会计准则全球执行情况的调查表明，经济发达国家，包括国际会计准则委员会发起成员所在国对国际会计准则的执行程度，普遍较低。经济实力最强的美国，其准则完全独立于国际会计准则。（Purivis and Diamond，1991）（转引自刘峰，2000）

（二）国际会计准则的发展国际会计准则委员会（IASC）改组之前，是一个完全由执业会计师组成的松散的、无稳定资金支持的民间组织，在此期间，其发展经历了两个截然不同的阶段。1973到1987年间，IASC颁布了一批实质性准则、解释公告、概念框架及其他指南，并有很多公司直接采用其准则体系以编制财务报表，同时有许多国家的会计准则制定者在制定本国会计准则时予以参照，特别地，IASC制定的准则因适应发展中国家的国情而被其广泛采用，但这很大程度上是因为发展中国家大多没有本国的会计准则。然而，由于制定国际会计准则本身会影响各国现有会计准则制定者的既得利益，因此，那时候的国际会计准则要做到真正的“全球化”还为时过早。刘峰从制度变迁的角度对这一现象进行了解释。其认为，如果国际会计准则委员会通过努力，将国际会计准则转变成一种具有管制力的规则，必然的趋势是经过一段时期的发展，各国会计准则将会逐渐被国际会计准则取代，各国会计准则制定机构的存在也将显得没有必要。因此，在由国际会计准则委员会发起的、推广国际会计准则的制度变迁中，国际会计准则委员会具有正的、较高的利益预期，而各国会计准则制定机构、特别是那些已经存在较长时期并形成相当规模的会计准则制定机构，将成为这一制度变迁的直接受害者：其必须要放弃已取得的各种资源优势，包括每年金额不菲的办公经费这一直接资源和因掌握了具有管制权威的准则制定权而带来的间接资源优势。很显然，没有任何一个机构愿意自动退出。这样，各国的会计准则机构也必然要进行各种努力，以求自身的生存。（刘峰，2000）从1988年起，IASC从一个国家间的证券协调联合组织――证券委员会国际组织（International Organization of Securities Commissions，简称IOSCO）获得了强有力的支持。为了应对外界对国际会计准则的质疑，也同样为了实现IASC成立之初的目标，国际会计准则委员会开始致力于提高其准则的质量。1989年1月，国际会计准则委员会成立了一个可比性促进委员会，提出一份题为“财务报表可比性”的征求意见稿（E32），其内容主要是删除大部分可自由选择的备选方案。此后，美国FASB开始逐步参与IASC制定国际会计准则的工作，特别是IASC改组之后，FASB与IASC的合作更加密切，主要表现在：2001年4月，IASC正式改组为IASB。改组后，美国在IASB及其他机构中处于“主发言人”的地位。2002年9月18日，FASB与IASB在美国诺沃克（Norwalk）举行联合会议，商讨共同致力于建立高质量、相互兼容的会计准则，以向国内和国际财务信息的使用者提供高质量的财务报告。2002年10月29日，FASB与IASB正式达成协议，共同了一份谅解备忘录，将美国财务会计准则FAS和国际财务报告准则IFRS的趋同作为双方的义务。2004年10月，在FASB与IASB召开的联合会议上，双方决定将改进并建立共同的财务会计概念框架列合项目的工作日程。2005年，SEC“路线图”，以增进IFRS与美国GAAP的趋同。2006年，IASB与FASB更新了双方关于趋同的协议。

实际上，IASC改组之后，国际会计准则的制定权是由以美国为首的少数发达市场经济国家掌握。这其实也是使其接受国际会计准则的一个必不可少的条件。由表1可知，目前IASB的领导层是以美国为核心的，其人数比例高达43%，掌握了绝对的领导权。而且，从国家组成上来说，是以发达国家为主导的，发展中国家和欠发达地区尚难在IASB中占据席位。（特别从州际组成来说，美洲、欧洲、大洋洲、亚洲均有代表，唯独经济发展水平相对落后的非洲没有代表。）就目前国际会计准则在全球的发展状况来看，据2008年德勤（Deloitte & Touche LLP.）进行的一项调查显示，目前全球已经有100多个国家采用国际会计准则（IFRs）进行资本市场的信息披露，此外，还有许多国家在未来几年内将采用国际会计准则，包括智利（2009）、韩国（2009）、巴西（2010）、印度（2011）和加拿大（2011）。中国和日本目前虽然还没有完全接受国际会计准则，但是，两国已经同意与IASB合作。（Deloitte 2008 IFRS Survey: Where are we today， Deloitte & Touche LLP.2008.5）

二、国际会计准则的全球化路径――博弈分析框架

（一）“最优反应动态”模型国际会计准则（IFRS）的全球推广经历了一个漫长的过程，世界各国从最初的“抵制”到目前的“普遍接受”，其间经历了一个不断调整的过程。下文拟采用博弈论中的“最优反应动态（Best Response Dynamics）”模型对这一过程进行分析。（该模型参考谢识予，2006）

假设博弈方的博弈内容是图1所示的得益矩阵表示的两人对称静态博弈，称其为“协调博弈”（Coordination Games）。博弈双方分别代表两个不同的国家，博弈的内容是决定是否采纳国际会计准则。通过纳什均衡分析，该博弈具有两个纯策略纳什均衡（采纳，采纳）和（不采纳，不采纳）。这两个纳什均衡中，后者明显帕累托优于前者。

显然，如果博弈双方都是理性的，那么，通常的结果应该是（不采纳，不采纳），这个协调博弈背后的经济意义是，在采用国际会计准则问题上，各国都存在明显的变迁成本，因此，在一次博弈中，博弈双方都乐于维持现有的准则体系，无论哪一方都不愿意负担变迁成本，从而表现出一种所谓 “理智的冷漠”。但是，当考虑博弈方对对方理性的信任问题，或者对风险的敏感性等其他因素，（采纳，采纳）也许就是更好的预测。也就是说，由于该博弈本身是一个有多重纳什均衡的博弈，因此在一次性博弈中，即使博弈方都是高度理性的，博弈结果也有不确定性，很难做出完全保险的预测。具体来说，博弈方在初次博弈时可能只关心由会计准则变迁产生的变迁成本问题，而忽视了由不采纳国际会计准则产生的巨大交易成本，从机会成本的角度考虑，这实际上是采用国际会计准则，与其他国家实现趋同带来的一项收益，根据成本效益原则，如果该项交易成本大于变迁成本，就应该采纳国际会计准则。这就是博弈方所谓的“有限理性”的实质。

接着，从有限理性的角度分析上述博弈问题。假设博弈方虽然缺乏分析交互动态关系和预见能力，但是能够马上对上一阶段的博弈结果进行总结，并立即做出策略调整。当然，考虑到对手的策略也在调整，因此博弈方的策略调整针对上一期的对手肯定是正确的，但对当前的对手策略不一定正确，而这正体现了博弈方的有限理性。同时，假定共有5个博弈方分别处于图2圆周上的5个位置上，每个人都与各自的左邻右舍反复博弈。

既然博弈方都是有限理性的，因此在初次博弈时，每个位置的博弈方都既可能选择“不采纳”策略，也可能选择“采纳”策略。所以，初次的博弈总共有25=32种可能的结果。这32种情况包括一种全部选择“不采纳”策略和一种全部选择“采纳”策略，其他都是两种策略都有人采用。将这32种情况中对称的部分剔除出去，可以得到8种具有实质性差异的情况。对这些博弈方依据最优反应动态进行策略调整的规则进行分析，以观察通过重复博弈，是否会出现策略的收敛。假设xi（t）为在t时期博弈方i的邻居中选择“采纳”策略的邻居的数量，该数量有0，1，2三个可能值。选择“不采纳”策略的邻居数量相应的为2-xi（t），也有0，1，2三个可能值。针对第t期的相关情况xi（t），博弈方i选择“采纳”的得益为xi（t）×50+［2-xi（t）］×49，选择“不采纳”则得益为xi（t）×0+［2-xi（t）］×60。因此根据最优反应动态机制，当xi（t）×50+［2-xi（t）］×49>xi（t）×0+［2-xi（t）］×60，即 xi（t）>22/61时，博弈方i在t+1期会选择“采纳”策略，而当xi（t）×50+［2- xi（t）］×49

由于5个博弈方是完全相似的，因此上述法则对其来说都适用。不难证明，除了初次博弈时所有博弈方都选择“不采纳”策略这一种情况之外，从其他所有的情况出发，经过一定时期的调整，最终都会收敛到所有博弈方都选择“采纳”的稳定状态。上面列举的8种情况中，除了所有博弈方都选择“采纳”和都选择“不采纳”这两种情况之外，还有6种情况选择“采纳”的博弈方的数量和位置有差异。下面讨论这6种情况是如何收敛到稳定状态的。首先，讨论初次博弈只有1个博弈方选择“采纳”的情况，根据上述的策略调整法则，给出最优反应动态的全过程。如图3所示，5个博弈方经过4个时期的反复策略调整，最终收敛到了所有博弈方都选择“采纳”的稳定状态，此时的最优反应动态就不再要求任何博弈方改变策略，这意味着选择“采纳”不仅是单个博弈方的稳定策略，而且是群体意义上的稳定策略。

此外，图3也同时包含了两个不相邻博弈方选择“采纳”，三个不相邻博弈方选择“采纳”和四个博弈方选择“采纳”这三种情况。下文仅需分析两个相邻博弈方选择“采纳”和三个相邻博弈方选择“采纳”这两种情况。这两种情况的调整，在图4和图5中给出。上述分析证明，在总共32种可能的初次博弈情况中，只有一种是稳定于所有博弈方都选择“不采纳”的状态，其余31种情况都会收敛于选择“采纳”的状态。虽然都选择“采纳”和都选择“不采纳”均是有限理性博弈方进行上述协调博弈的稳定状态，但是，前一种稳定状态显然更重要一些，因为博弈方的策略调整收敛到这种情况的概率要大大高于后一种情况。进一步推论，在该博弈中，当所有博弈方都选择“采纳”的稳定状态出现以后，如果有部分博弈方偏离了该状态，最优反应动态会使博弈方的策略很快返回到都选择“采纳”的状态中来，而与此相对应，所有博弈方都选择“不采纳”策略就是一种不稳定状态，某一个博弈方的偏离，最优反应动态都会使博弈方的策略离该状态越来越远。综上所述，证明了“采纳”策略是这个博弈的“进化稳定策略”（Evolutionary Stable Strategy ，ESS）。

上述博弈分析告诉人们，在国际会计准则产生初期，参考甚至直接采用该准则体系的国家并不多，而且大多数是尚未建立一套完整准则体系的发展中国家，但事实上，正是这些国家推动了国际会计准则全球化。其中的原因是，当两个在地缘上接壤或者商业往来频繁的国家发生贸易往来，进而形成稳定的资本流时，透明的会计信息对双方来讲都是必不可少的。此时，如果两国之间的会计准则存在明显的差异，那么，由此产生的交易成本将是巨大的。因此，接受一个被普遍认可的准则体系以实现趋同，将是可行的解决方案。

（二）智猪博弈模型哪些国家会主动采纳国际会计准则，并致力于取得国际会计准则的制定权将采用博弈论中的智猪博弈（boxed pigs game）来进行解释。（该博弈模型参考张维迎，2004）

该博弈的基本框架是，假设猪圈里有两头猪，一头大猪，一头小猪。猪圈的一头有一个猪食槽，另一头安装一个按钮，控制着猪食的供应。按一下按钮会有a单位的猪食进槽，但是谁按按钮谁就需要支付c单位的成本。（这里，a>c>0）若大猪先到，大猪吃到a-b单位，小猪吃到b单位（a>c>b）；若同时到，大猪吃到a-d单位，小猪吃到d单位（a>d>c）；若小猪先到，大猪吃a-e单位，小猪吃到e单位（a>e>d>c）。图6中各符号的大小顺序为：a>e>d>c>b>0。这样，在重复剔除严格劣战略过程中，最终的均衡解取决于（a-e-c）的正负。若a-e-c>0，则最终的均衡解为（按，等待）；若a-e-c

将上述分析应用到国际会计准则的制定问题中，就不难理解国际会计准则的制定一直以来都是由少数几个发达国家主导这一事实了。发达国家在国际经济活动中处于主导地位，当其从一套全球统一的会计准则得到的收益大于接受该准则付出的变迁成本的时候，就有接受国际会计准则的强烈愿望。而对于其他国家来说，在这一问题上采取“搭便车”策略同样也是理性的选择。特别地，就美国而言，其在IASB中的地位可以说十分稳固，并且FASB一直致力于提高国际会计准则的质量，以实现IFRS与美国GAAP的趋同，而事实上，这种“趋同”是为了最大程度地降低美国采用国际会计准则的变迁成本。其清楚地认识到，哪个国家掌握了国际会计准则的制定权，哪个国家就会在国际会计准则趋同的过程中占有绝对优势。

早在1998年12月，国际会计准则委员会（IASC）就了题为“重塑国际会计准则委员会”的专题报告，其第二章“国际会计准则委员会面临的挑战”将这些具体因素归结为：国际资本市场、世界贸易、商业规则的国际化、国别会计准则、商业交易的创新、各类新式信息的需求、信息的电子传输、过渡与发展中及新近工业化国家。（刘峰，2000）在该专题报告十年后，这些因素依然影响着国际会计准则的发展，既是国际会计准则全球化的面临的挑战，同时也是推动国际会计准则不断发展的动力。任何事物的发展都是由客观规律决定的，国际会计准则的全球化的进程也不例外。纵观国际会计准则的发展历程，其路径最终是由全球经济环境的变迁决定的，是经济全球化的一个缩影。但可以肯定，会计准则全球化将是大势所趋。我国目前努力实现的会计准则国际趋同也是完全顺应时展的，是正确的选择。

参考文献：

［1］甘泉、何力军：《国际会计准则制定的利益博弈与经济后果》，《湖北经济学院学报》（人文社科版）2008年第8期。

［2］刘峰：《会计准则变迁》，中国财政经济出版社2000年版。

［3］汪祥耀：《与国际财务报告准则趋同――路径选择与政策建议》，立信会计出版社2006年版。

［4］谢识予：《经济博弈论》，复旦大学出版社2006年版。

［5］张维迎：《博弈论与信息经济学》，上海人民出版社2004年版。

［6］泽夫：《会计准则制定：理论与实践――斯蒂芬・泽夫教授论文集》，中国财政经济出版社2005年版。

［7］Zeff.1978.The Rise of “Economic Consequence”［J］. The Journal of Accountancy.December:56-63.

［8］Deloitte & Touche LLP.2008. 2008 IFRS Survey: Where are we today［EB/OL］.see 省略. 20090212.

第8篇：博弈最优策略范文

关键词：博弈；中国联通；中国移动；囚徒困境

中图分类号：F626 文献标识码：A

收录日期：2014年4月7日

我国的移动通讯市场可以说是一个典型的双寡头市场――主要被中国移动和中国联通两家企业占领。他们目前主要经营GSM移动电话网络，并且所提供的产品在很大程度上存在高度的替代性，所采取的营销手段也很相似。

一、博弈论相关知识

博弈是指一些个人、团体或其他组织，面对一定的环境条件，在一定的规则下，同时或先后、一次或多次、从各自允许选择的行为或策略中进行选择并加以实施，并从中各自取得相应结果的过程。一个完整的博弈应包括：（1）博弈的参加者；（2）博弈方各自可选择的全部策略；（3）进行博弈的次序；（4）博弈方的得益。

二、移动和联通博弈的特点

在目前的市场条件下，中国移动和中国联通作为博弈的参与者，其博弈过程表现出几个特点：（1）非合作博弈。虽然他们都认识到合作在竞争中的必要性，但实际上由于“个体行为理性”原则的存在，使得非合作竞争在一定范围内表现得较显著，而合作则表现得相对较弱；（2）先后次序的博弈。移动和联通的价格竞争表现在二者互相降价，但是降价的过程是有先后次序的；（3）具有完全信息的博弈。企业的价格行为是面向消费者的，竞争对手也是很容易获取价格信息，掌握此前博弈的全过程。

三、“囚徒困境”与移动和联通的博弈

“囚徒困境”是一个经典的、几乎每本博弈论著作都必定谈到的博弈模型。中国移动和联通之间的价格战与“囚徒困境”博弈具有相似性。我们假设市场的总收益为10个单位，如果移动和联通都不降价的话，二者的收益假设为（6，4），即移动为6个单位，联通为4个单位；但是如果联通降价，而移动不降价的话，联通的收益较移动来说会有所增加，收益假设为（3，5），即移动为3个单位，联通为5个单位，此时市场的总收益降为8；同样，如果移动降价而联通不降价的话，由于联通信号不好、网络覆盖面小等原因，将导致联通的收益大大的减少，我们假设为（7，1），即移动为7个单位，联通为1个单位，此时的市场总收益也是8个单位；如果二者都降价的话，但是由于联通存在着自身的缺点，所以尽管都降价，消费者还是会选择移动，我们假设为（4，2），即移动收益为4个单位，而联通则为一个单位，但在双方都降价时的总收益却是最小的，仅为6个单位。用博弈的收益矩阵表示就是：

在这个博弈的过程中，中国移动和中国联通分别有两种策略：降价和不降价。但是各方的收益不仅取决于博弈过程中自己所做的策略选择，还取决于竞争对手的策略选择。所以，竞争的任何一方在做决策时都会考虑对手的选择对自己的影响，然后再在对手选择的基础上做出自己的最优决策。就联通而言，当移动降价时，如果他也随之降价所获得的收益是2个单位，但如果他不降价，所获得的收益仅为1个单位，根据“个体行为理性化”的原则，他会选择降价；当移动不降价时，他降价的收益是5个单位，不降价的收益是4个单位，他还会选择降价；所以，无论移动降价还是不降价，联通的最优策略是降价。同样，对移动而言，当联通降价时，他降价获得收益是4个单位，不降价只有3个单位，所以他会选择降价；当联通不降价时，移动降价的收益是7个单位，不降价的收益是6个单位。所以，无论联通选择降价还是不降价，移动的最优策略都是降价。于是，无论对手的策略是什么，他们的最优策略都会是降价，也就是说，此博弈的纳什均衡是（降价，降价）。但此时的市场的总收益是6个单位，当都不降价的时候，总收益为10个单位，此时达到了帕累托最优，而且和其他的情况相比6个单位的总收益也是最低的，但由于“个体理性”和“集体理性”的冲突，最后他们的选择只能是（降价，降价），于是，移动和联通的博弈陷入了“囚徒困境”。

四、政府管制可以使移动和联通的博弈走出“囚徒困境”

随着中国移动和联通价格竞争的不断激烈，最后必然使得整个电信行业的整体利益受损。此时，政府为了维护整体利益和市场的有序竞争，就会出面或制定行业法规或制定行业基本的资费标准来约束他们的降价行为。在政府的管制下，可能双方都会暂时有所收敛。但很快双方都会发现，如果对方服从管制，而自己降价，则自己将会获得更多的顾客，因此他们就会采用打折、优惠、套餐等变相的手段降价。这些手段为的是使他们的降价行为更加隐蔽。让竞争对手维持原价，而自己获得更大的利益。由于双方都是理性的，因此都存在这种动机，于是为获取最大利益的降价竞争又开始了。

下面我将政府作为管制机构纳入博弈，而趋于降价竞争的移动和联通作为博弈的另一方建立模型，构建了下图所示的双人博弈模型分析了管制机构对运营商降价竞争的影响。在此博弈中，移动和联通试图在管制机构规制下的市场中进行降价竞争。如果运营商降价竞争时，管制者不进行干预，运营商就能够获得数值为15单位的效益；则管制者会因未尽职而被指责，获得数值为1个单位的负效益。而如果管制者干预，运营商就要被处罚，但还会从降价中得到部分好处，我们假设得到9个单位的效益，但此时管制者也要付出管制成本，我们假设是6个单位；如果运营商没有降价竞争时，管制者不去规范市场，而则管制者省心省力可以获得2个单位的效益，如果运营商没有违规降价，则其既无得也无失。如果管制者尽心规范市场，则是在其位谋其职，也是无得无失。其支付矩阵可以用下图表示：

从支付矩阵中很明显可以看出，该博弈纳什均衡为（降价，管制）。为此，只要管制者的得益没有改变，管制者增加对运营商的约束和处罚，在短期里能够抑制降价竞争的发生，但在长期里会使管制者松懈对降价竞争的规制，而运营商降价竞争的概率却并不会减少。

五、启示

运用博弈理论来分析中国移动和中国联通的价格竞争，可以得到以下启示：以利益最大化为目标的中国移动和中国联通在价格战中陷入了“囚徒困境”，形成竞相降价的恶性竞争局面，最终将导致两败俱伤，但是如果政府监管部门加强执法力度，高举严厉的监管之剑，对降价的运营商给予足够大的惩罚，使得企业违规降价的成本足够高，相应的，企业降价的空间也就越小。为此，政府部门应建立相应的法律法规，加大对违规进行恶性价格竞争行为的处罚力度，避免无序的价格竞争。

主要参考文献：

[1]张维迎.博弈论与信息经济学[M].上海：上海三联书店.上海人民出版社，1996.

第9篇：博弈最优策略范文

[关键词]公职人员败德行为监管博弈

一、博弈论的引入

博弈论研究的是决策主体的行为发生直接相互作用时的决策以及这种决策均衡问题，应用最普遍的是纳什均衡。而纳什均衡，是指一组满足给定对手的行为，各博弈方所做的是它所能做的最好的策略，为一种非合作博弈。博弈论的基本假设有两个：一是强调个体行为理性，假设当事人在进行“决策”时，能够充分考虑到他所面临的局面，即他必须并且能够充分考虑到人们之间行为的相互作用及其可能影响，并能够做出合乎理性的选择；二是假设博弈各方最大化自己的目标函数，能够选择使自身效益最大化的策略。博弈论分析的实质是，在经济主体理性的条件下，行为主体根据给定的条件及对方的行为（策略）等，来决定自己的行为（策略），从而使自己的利益最大化。

公职人员败德行为及其监管的主体是公职人员及其监管方，他们一般是行为理性的，显然能清楚地认识到拥有某种重要社会地位、薪金收入等的自身价值。但面临纷繁复杂的外部环境诱惑，局中人还是会作出不同的决策，即选择严监管与否、选择败德行为与否取决于行为人对自身价值的认识及与预期收益的比较，这几点正好符合博弈论分析的基本特征，因此我们可以将博弈论引入公职人员败德行为的研究中，来分析公职人员败德行为及其监管，并在此基础上提出治理建议。

二、公职人员败德行为及其监管的博弈分析

（一）博弈模型的选择

根据上述假设及分析建立公职人员败德行为及其监管的博弈模型。监管方的纯策略选择是严监管或松监管（不监管是松监管的极限状态），公职人员的纯策略选择是实施败德行为或不实施败德行为。表1概括了对应不同纯策略组合的支付矩阵。矩阵中第一个数字为监管收益，第二个数字为公职人员收益。其中：Cs是监管方实施松监管的成本（不监管时Cs＝0），Cy为监管方实行严监管多支付的成本，Mg指公职人员实施败德行为未被查出预期所得收益（包括政治利益、经济利益和其它不当得利等），Lj表示监管人员工作失职可能受到的惩罚（包括刑事责任、行政处分、经济处罚等），Lg代表公职人员实施败德行为被查出可能受到的惩罚（亦包括刑事责任、行政处分、经济处罚等）。

假设各利益相关者的策略如下：

Pj：监管方严监管的概率，则（1－Pj）为松监管概率；

Pg：公职人员实施败德行为的概率，则（1－Pg）为不实施败德行为的概率。

矩阵中的四种策略组合表示的意义：当监管方严监管时公职人员公然实施败德行为，此时公职人员败德行为被查出将蒙受Lg的损失，而工作出色的监管人员将获得奖励Mj，Mj扣除严监管的成本（Cs＋Cy）为监管方的净收益；当监管方严监管时，公职人员选择遵纪守法不实施败德行为，则监管方损失严监管的成本（Cs＋Cy），而公职人员既无损失也无收益（收益为0）；当监管方松监管甚至不监管时，公职人员若选择败德行为，此时监管方因监管人员失职而受惩处导致损失（Cs＋Lj），而公职人员则因败德行为得逞获得不当得利Mg；当监管方松监管时，公职人员如没有败德行为，此时监管方会损失松监管成本Cs，而公职人员当然既无损失也无收益（得益为0）。

表1：公职人员败德行为及其监管得益矩阵

得益矩阵

公职人员

实施败德行为Pg

不实施败德行为1－Pg

监管方

严监管

Mj－（Cs＋Cy），－Lg

－（Cs＋Cy），0

松监管

1－Pj

－（Cs＋Lj），Mg

－Cs，0

通过以上分析可知，如果监管方实施松监管，公职人员的最佳策略是实施败德行为，以获取额外非法得益；而当公职人员实施败德行为时，监管方的最佳策略是进行严监管，以打击作奸犯科者，保障国家或企业不受损失。既然监管方实施严监管，公职人员的最佳策略是不实施败德行为，以免受惩罚；而当公职人员不实施败德行为时，监管方的最佳策略是进行松监管甚至不监管，使监管成本最小化……如此重复的结果，不可能产生一个使博弈双方愿意单独改变自己策略的纯策略组合，而只能以上面假设的某种概率，如Pg、Pj等随机地选择不同的策略组合构成混合策略博弈的纳计均衡。根据纳什定理，在这种均衡条件下，监管方和公职人员都无法通过改变自己的混合策略来改善自己的得益。

如果设监管方和公职人员的期望收益分别为Ej和Eg，则：

Ej＝Pj·{[Mj－（Cs＋Cy）]·Pg＋[－（Cs＋Cy）]（1－Pg）}

＋（1－Pj）[－（Cs＋Lj）·Pg＋（－Cs）（1,－Pg）]

＝MjPjPg＋LjPjPg－CyPj－LjPg－Cs

Eg＝Pg·[－Lg·Pj＋Mg·（1－Pj）]＋（1－Pg）[0·Pj＋0·（1－Pj）]

＝MgPg－LgPjPg－MgPjPg

若使公职人员败德行为及其监管的混合策略博弈达到纳什均衡，

则：

MjPg＋LjPg－Cy＝0（1·1）

Mg－LgPj－MgPj＝0（1·2）

解（1·1）、（1·2）组成的方程组，求得该混合策略的纳什均衡解为：

＝Mg/（Mg＋Lg）和＝Cy/（Mj＋Lj）（二）数据分析

在监管人员查出败德行为所得奖励Mj和因工作失职而受到的惩处Lj既定的情况下，即对监管人员工作业绩的奖惩力度一定时，公职人员实施败德行为的最优概率取决于监管方实行严监管多支付的成本Cy，且与其成正比。这预示着发现败德行为需要支付很高的监管成本，没有付出高企的额外成本就不能发现败德行为，意味着发现败德行为的概率降低了，因而实施败德行为变得相对的容易，故败德行为的发生概率随着监管成本的增加反而提高了。反过来说，在一定条件下，设法降低严监管多支付的成本就可以降低败德行为的发生概率；同理，Cy一定时加大对监管人员工作业绩的奖惩力度能达到同样的监管效果。但是，降低监管方的监管成本，加大对监管人员工作业绩的奖惩力度，在短期内可提高监管人员实施严监管的积极性，但长期效果如何呢？

当Pg>时，监管方的最佳策略是选择严监管。而根据＝Cy/（Mj＋Lj），公职人员选择实施败德行为的最优概率只与Cy、Mj、Lj有关，即与Cy成正比，与Mj、Lj两者之和成反比。因而，降低Cy、提高Mj和Lj，都能降低发生败德行为的最优概率，从而达到Pg＞，促使监管人员履行职责。但长此以往，在监管方实施严监管后，公职人员又会趋于选择职务合法合规行为，而使败德行为概率Pg降低，低至一定幅度就会导致监管方严监管与松监管两者的期望收益等值，监管方又会重新选择混合策略，出现重复博弈。而＝Mg/（Mg＋Lg）表明混合策略中监管方选择严监管的概率主要与Mg、Lg有关，而与监管人员松监管所受惩处Lj无关。因此，单纯降低监管方的监管成本、加大对监管人员的惩罚力度，而不改变公职人员期望得益，虽短期有作用，但长期来看却并未改变监管人员的博弈策略选择，对败德行为效果不大。

同样地，当Pj>时，公职人员最优选择是遵纪守法。故要使监管有效，必须降低值。而由推导知，＝Mg/（Mg＋Lg）。在现实经济生活中，公职人员未被查出预期所得收益Mg是外生变量，虽然在不同的败德行为行为中由案件的严重性决定可大可小，但在某一固定事件中通常为一常量，即可确定监管者的最优概率主要取决于败德行为被查出受到的惩罚Lg，且成非严格意义上的反比关系。因而加大惩处力度，使Lg值变大，将降低监管方的最优概率，从而形成Pj>的局面，促使公职人员选择不实施败德行为。但久而久之，在没有败德行为的情况下，监管方必然会理性地放松警惕，降低监管力度至一定程度时，败德行为实施与否的期望收益相等，公职人员又会重新选择混合策略，导致重复博弈。结果呢？根据＝Cy/（Mj＋Lj），与Lg无关，即实施败德行为的最优概率与被查出的损失无关。此时即使被查出的损失Lg足够大，根据博弈理论，如果监管乏力，对公职人员而言也只是不可置信的威胁，必然继续延续前科。因此，单纯加强对公职人员败德行为的惩处力度，加大其损失，而不改变监管人员的期望得益，虽然短期内使公职人员败德行为有所收敛，但长期也将导致监管人员降低监管力度，难以真正发挥控制败德行为的作用。

三、启示及建议

（一）公职人员是否实施败德行为及监管人员能否履行职责是问题的两个方面，单纯采取对一方的奖惩来诱导其行为也许短期有效，但从长期看，并不能改善任何一方的理性和道德风险行为。为了达到（松监管，不败德行为）的目标，我们过去总是片面强调加大惩罚力度，因为在一定范围内惩罚得越严厉就越接近这一目标；与此同时，也提倡配合一定的激励措施，希望达到监管方和公职人员的双赢。但惩罚和激励措施必须适度，而实际很难把握：对惩罚而言，力度过大会使部分公职人员产生逆反心理，形成拼死一搏的倾向，反而达不到约束的作用；对于激励而言，其效果受多种因素影响，激励程度不够，会使监管人员在收益增加的情况下仍然松于监管，而过分激励、收益过多会使监管人员产生当前的收益已经足够了的想法，丧失进取动力，同样达不到目的。笔者认为，由检查力度、处罚力度和处罚执行力度三者合一所决定的监管环境是制约败德行为的关键因素。治理败德行为，应由目前的加强对败德行为公职人员的惩处力度为主，逐渐过渡到提高对违法者的检查力度和处罚执行力度与加强对败德行为的惩处力度并重，加大对监管人员失职行为的处罚力度与降低监管成本并重，建立健全教育、制度、监督并重。

（二）博弈论的研究表明，一个人作出的选择，取决于其对该选择成本收益的预期以及对他人选择的预期。给定必需的权力和信息不完全这两个条件，败德行为及其监管的内在逻辑沿着成本和收益变动的路径展开。因此，权力配置结构问题是监管败德行为机制设计及战略选择的根本问题。亦即监管败德行为不能局限于在权力既定这一约束条件下只是通过加强对权力的外部制约来监督控制公职人员败德行为而不改变现有的权力结构。如扩大公众的监督权，把某些不必要集中的权力下放到市场中，是监管败德行为的釜底抽薪之计。其次，改善权力配置的信息结构、提高透明度，包括完善政务公开、重大问题决策公开、选拔干部公开等制度，细化公职人员职务权力义务的规定等是监管败德行为的另一项重要措施。另外，给定监管败德行为的必要条件（如制度、信息不完备），监管人员与公职人员的期望得益、价值取向和道德约束主宰着实施败德行为的动机，从另一侧面说明了建立健全教育、制度、监督并重的惩治和预防腐败体系的特殊意义。

（三）博弈过程是一个长期复杂的过程。松监管，不败德行为作为我们追求的最终目标，是均衡点而不是一次博弈的结果。它是博弈双方经过长期磨合和斗争、反复修订各自的策略、经过多次博弈最终形成的结论。随着内外部环境的变化，隔一段时间各方还要进行修订，以逐步接近最佳点。而且，达到最佳点涉及到政府政策、社会风尚、道德水准等许多方面，并不是只论及本文中提到的两方，也就是说，这在实际中应该是一个多方博弈，甚至牵涉监管人员和公职人员的合谋问题，达到均衡点不是一朝一夕的事，由于本人水平的限制，很多问题由待大家共同研究。

[参考文献]

[1]．张维迎．博弈论与信息经济学[M].上海：上海人民出版社,1996．

博弈最优策略精选(九篇)

第1篇：博弈最优策略范文

第2篇：博弈最优策略范文

第3篇：博弈最优策略范文

第4篇：博弈最优策略范文

第5篇：博弈最优策略范文

第6篇：博弈最优策略范文

第7篇：博弈最优策略范文

第8篇：博弈最优策略范文

第9篇：博弈最优策略范文

免责声明

AI写作，高效原创

相关热门标签

相关文章阅读

相关期刊推荐

中国国际战略评论

冶金信息导刊

精选范文推荐