博弈论理性人【对博弈论者获诺奖成果的理性思考】

发布时间:2020-02-16 来源: 感悟爱情点击：

　　摘要：博弈论再度赢得了2005年度诺贝尔经济学奖。罗伯特.奥曼主要从完善博弈论体系上深化了经济学研究的方法，托马斯.谢林则从博弈论应用上扩展了经济学研究的范围，文章通过解读两位获奖者的理论成果，评价了他们的学术贡献，分析了博弈论研究成果的应用范围及其局限,指明了扩大合作可能的机制。
　　关键词：冲突与合作重复博弈有限理性宽容机制
　　
　　一、博弈论者再夺诺贝尔经济学奖
　　
　　2005年10月10日瑞典皇家科学院在斯德哥尔摩宣布，将2005年的诺贝尔经济学奖授予以色列希伯莱大学的罗伯特?奥曼(RobertJ.Aumann)和美国马里兰大学的托马斯?谢林(ThomasC.Schelling)，以表彰他们“通过博弈论分析，促进了人们对冲突和合作的理解”。在颁奖仪式上，诺贝尔评审委员会说: 他们的研究成果 “（有助于解释）为什么有些国家、团体和个人可以和平地解决冲突，而另一些国家、团体和个人却不断地被冲突困扰……这一自古以来困扰我们的问题”，（这些成果）“在安全……市场价格形成以及经济和政治磋商方面有着广泛应用，尤其在解释价格战和贸易战这样的经济冲突上更具成效。”
　　从上世纪90年代中期至今，与博弈论领域相关的基础研究，已经是第五次折桂了。1944年，数学家约翰?冯?诺伊曼(John von Neumann)和经济学家奥斯卡?摩根斯坦(OskarMorgenstern)合作出版了《博弈论与经济行为》一书，概括了经济主体的交互影响的典型行为特征，提出了策略型与广义型(扩展型)等基本的博弈模型、博弈解的概念以及博弈分析的方法，奠定了博弈论大厦的基石。
　　50年后的1994年，博弈论大师纳什、泽尔腾、海萨尼三人分享了当年的诺奖，他们所提出的“纳什均衡” 挑战了西方市场经济“看不见的手”原理，与斯密在《国富论》中所说的“利益主体通过追求个人的自身利益，他常常会比其实际上想做的那样更有效地促进社会利益”相反，纳什的非合作均衡表明: 经济主体从利己目的出发，结果是损人不利己，既不利己也不利他。[1]
　　“纳什均衡”主要研究非合作均衡，强调个人理性，研究人们在利益相互影响的情况下如何选择策略，以获得自身利益最大化。
　　其后的10年中，罗伯特?奥曼和托马斯?谢林把博弈的研究领域扩展到合作均衡。合作博弈强调团体理性，应用的范围超出经济领域，而达到政治、军事等领域; 博弈论与广义制度经济学的结合令他们当之无愧地赢得了2005年度的诺贝尔经济学奖。
　　
　　二、两位诺奖获得者的理论贡献
　　
　　（一）奥曼的主要理论贡献
　　奥曼1930年6月出生于德国的法兰克福，拥有以色列和美国双重国籍，是一名在以色列、美国乃至世界各地享有极高学术声誉的著名经济学家。他的理论贡献主要表现在：
　　1、提出了无限期重复博弈理论，丰富了博弈论的体系。
　　静态博弈，以及重复但有限次的博弈无法使参与者走出“囚徒困境”，为了防范参与者通过违背自己最初的承诺获取利益，无限期重复博弈被引入。“佚名定理” (theFolkTheorem)是一个在其正式见诸文献时，早已流传于博弈理论界的定理，它表明了重复博弈的参与者任何偏离均衡路径的策略不可能改善其支付状况。奥曼首先运用“佚名定理”论证了完全信息的重复博弈论中何种结果能够使长时期合作(long-termcooperation)关系得到维持。20世纪60年代中期，奥曼与其合作者及其学生一起，又发展了不完全信息的重复博弈论。奥曼关于不完全信息博弈的许多重要观点现在已经被应用于经济理论中，诸如寡头垄断、委托代理理论、保险等领域。
　　2、建立了所谓的“交互认识论”(interactiveepistemology)，把共同知识(commonknowledge)的概念引入到博弈论中。奥曼认为博弈论是交互式条件下“最优理性决策”，即每个参与者都希望能以其偏好获得最大的满足。在多人参与者的博弈论中，一个参与者对结果的偏好等级并不意味着是他的可能决策的等级，这个结果也取决于其他参与者的决策。
　　3、引入“连续统（continuum）假设”，重建完全竞争经济模型。奥曼突破了传统完全竞争模型描述的存在许多参与者（居民和厂商），且每个参与者的影响都微不足道说法。他认为：“事实上，只要仅存在有限多的参与者，个别参与者对经济的影响就不能被忽视”。奥曼运用连续统模型，将完全竞争视为寡头策略性相互作用的极限情况，使均衡求解对于每一个参与者而言更为精确，这种方法成为经济理论的基本准则之一。
　　4、重新界定了“理性”。与传统微观经济学所提出的理性是“收入约束下的效用最大化”的说法不同，奥曼认为: 一个参与者的理性是在既定的信息约束下的效用最大化。他制订了相应的标准，使之通用于针对个体战略选择的非合作博弈与针对群体战略选择的合作博弈。他同时考察了知识和信息问题，拓展了人们关于信念和“交互认识论”的认识。还研究了“达到古典纳什均衡所需要的理性和理性知识的范围”的基本问题。
　　奥曼的上述研究极大的深化了经济学的研究方法。
　　
　　（二）谢林的主要理论贡献
　　谢林1921年出生于美国加利福尼亚州的奥克兰市，是美国著名学者、经济学家，也是有限战争理论的奠基人之一，还是外交事务、国家安全、核战略以及军备控制方面的研究专家。他的主要理论贡献为：
　　1、首次定义并阐明了威慑、强制性威胁与承诺、战略移动、不可置信威胁等概念。1960年，谢林在其经典著作《冲突的战略》这本书中指出，只有威胁是可信时，才能有效遏制对手的进入。“偶然事件不会引发战争，只有决定才会导致战争的爆发。”如果一国认为另一国会突然发动袭击，最好的策略是需要可信的二次还击能力，并让对方知道这一威慑，这样才能避免一场不情愿的战争。这一点十分类似《孙子兵法》中的“上兵伐谋”。
　　2、运用广义的“讨价还价” 分析冲突管理。从博弈论的角度来看，讨价还价是一个非零和博弈。在效率曲线上，博弈当事人的利益是对立的，不存在帕累托改进的可能。但存在一点，使得博弈当事人的利益是一致的。博弈者都希望避免两败俱伤，这种“双赢”的共同想法就体现为，在效率曲线上找到一个合适的点来解决彼此之间的冲突。
　　3、强调充分的沟通在达成协议中的作用。在充分交流的条件下，公开的讨价还价可能达成一种类似于 “双方期望” 的协定，即如果双方都推测这个结果能够为对方所接受，那么协议就可以达成了。谢林说明，博弈中的一方能够通过公开恶化自身的选择权以巩固自身的谈判地位，并且，报复的能力比起防御的能力来更有用处，而不确定的报复比必然的报复更加可信和有效率。因此，“在讨价还价的过程中，势弱的一方通常会成为强者。”
　　4、注重微观动机的宏观效果。谢林用“关键多数理论”(critical mass)和“有界邻里关系模型”(boundedneighborhoodmodel)，分析了在社会决策过程中，来自于文化、习惯等方面的许多强制力(compellingforce)能让决策汇集于一点形成共识。以及非组织的个人动机如何转变为集体行为，以此说明种族隔离是个人选择的自然结果。[2]
　　5、引入“自我博弈”的概念，研究道德规范、法律以及自制和个人内心的斗争，解释诸如酗酒、吸烟、缺乏锻炼、低储蓄等自我控制(self-command)问题。
　　谢林运用他所发展起来的博弈理论对核决策与军事控制、组织犯罪与敲诈、成瘾行为与自我控制、种族隔离、环境保护等现象做出了分析。使研究应用范围更加广泛。
　　
　　三、对博弈论假设的理性认识
　　
　　任何理论研究不可能没有假设，假设是对现实的高度抽象，因此，常常是苛刻的，有时甚至是与实际不符的。正因为如此，建立在假设基础上的研究结论并不一定完全符合实际，但都能为实际工作指出一个大的方向或范围。博弈论的提出的确扩展了经济学研究的空间，交互式的经济行为使以孤立个体行为为出发点的传统经济学的许多结论面临重新检验，奥曼和谢林的贡献似乎为博弈论与经典经济学结论之间的一致性提供了一条简洁的路径。但过于苛刻的假定使博弈均衡和古典均衡之间仍然存在一定的差异。
　　（一）建立在利益主体完全理性基础之上的古典经济学，力图通过通过埃奇渥斯曲线（契约曲线），达到帕累托最优，描述了一个利益主体双方共赢的局面，个体理性与集体理性高度一致。而博弈论者在考虑到“游戏规则” 、个人策略以及支付状况时，存在一种类似“囚徒困境”的现象，每个人从自己的利益出发，并不能导致整体利益的最大，而只能实现避免“两败俱伤”的次优均衡，即通常所说的“纳什均衡”。因此出现了个体理性与团体理性的冲突，这是非合作博弈的均衡。
　　（二）通过协议，博弈双方有可能达到古典经济学所说的最优均衡，这就是合作博弈。但在一次性博弈中，无法避免一方通过违背最初承诺而获取利益的局面，博弈双方争先恐后地违背承诺，导致合作的破裂，最优均衡难以达到。于是“报复”作为一种对违背承诺的惩罚机制而出现在策略中。可置信的威胁（可实施的报复）成为遏制冲突的有效策略。但即使在重复博弈中，只要博弈的次数是有限的，就不能解决博弈的一方在最后一次博弈中违背承诺，逃避惩罚的问题。
　　（三）只有无限期的重复博弈加上报复机制，才能构成对违约者可信的威慑，从而避免博弈的一方铤而走险。如果博弈双方具有足够的理性，都不愿意承受永久的报复所带来的损失，都不会违背协议，合作才成为可能。佚名定理正是揭示了这种完全信息下无限期的重复博弈中绝无偏离均衡路径而获取利益的状况。在此情况下，个体理性得解代表了合作理性的结局。在不完全信息下，参与者掌握信息（特别是关于对手策略的信息）的多寡成为获利与否的关键。所谓“知己知彼，百战不殆。”
　　（四）无限期的重复博弈虽然有可能使个体理性符合团体理性从而趋向于古典均衡，但这种均衡建立在报复机制和参与双方严格的理性假定的基础之上，这就使得这种均衡显得十分脆弱。亦即合作的基础十分脆弱，只要双方有一方的理性存在缺陷，就会立即招致严厉的报复，而“人非圣贤，孰能无过？”，所以局部的冲突始终难以消除，自古以来困扰着人类。
　　
　　四、增强合作可能的途径
　　
　　正视人类理性的局限，尽量消除这种局限所带来的不良后果，增进人类整体利益，这本身是人类理性进化的要求，也是经济学所致力的目标。面对获诺奖的博弈论者所揭示的合作与冲突的局面。我们应该探索增强合作可能亦即趋向古典均衡的途径。
　　
　　（一）建立信息的甄别机制，尽可能减少冲突，增强合作
　　如前所述，奥曼强调：一个参与者的理性是在既定的信息约束下的效用最大化。博弈双方掌握对方策略信息的多寡成为策略胜出的关键。这里信息的识别即成为理性的关键。如果一方收集到另一方的信息，那么这是一个合作的信息还是一个冲突的信息呢？他本人必须具备甄别的能力。如果他不能有效地甄别信息，那么即使再多的信息对他来说也只能形成困扰。他本人是否了解事实的真相，是否局限于自己的错觉，抑或由于对方偶尔的失误而造成信号的失真，还是对方故意发出的虚假信号以诱惑自己做出错误的决策而坐收其利？等等这些问题需要严格的加以甄别，才可能减少冲突，增强合作。
　　
　　（二）强化宽容和谅解机制，增强合作的可能
　　既然人类存在有限理性，自己和别人随时有犯错误的可能，通过甄别可以判断对方的信息哪些是决定的冲突，哪些是无意中的过失。既然自己不希望自己无意的过失受到严厉的报复，也应谅解他人的过失，容许别人犯错误也容许别人改正错误，这种相互宽容和谅解的机制，可以消除由于有限理性而导致的冲突，从而扩大合作的可能性。
　　
　　（三）倡导反思机制，减少冲突的因素，增强合作的可能
　　主动的减少无意间的过失往往比被动的受到别人的宽容更有效，因此通过经常地反思检讨自己无意间的过失，主动改正自己的错误，会有效的减少冲突的因素，增强合作的可能。
　　以上这些途径能够弥补人类有限理性带来的冲突，从而增强合作的可能，改进社会的福利水平。
　　
　　参考文献
　　[1] 李正信两位诺贝尔经济学奖获得主的学术贡献Ｎ经济日报2005.10.17
　　[2] 伍泽君单瑜竞争中的合作罗伯特?奥曼的重复博弈论的评述Ｊ云南财贸学院学报社会科学版2005.6
　　[3] 张军付勇诺奖回归博弈论Ｎ经济观察报2005.10.24

博弈论理性人【对博弈论者获诺奖成果的理性思考】

热点文章阅读