* 帖子主题 * [转帖] 谈囚徒困境(一篇想当好的文章!) 你是第 545 位浏览者 ccatm 军衔: PMU初级一星 财产: 经验: 魅力: 来自: 不告诉你 :) 鉴定: 本功能已经被关闭 发帖: 52篇 注册: 2002-7-26 -------------------------------------------------------------------------------- 囚徒困境 学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例--囚徒困境,非常耐人回味。 ----"囚徒困境"说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。 ----那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。 ----当然,在现实世界里,信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中,其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向。 ----但是,无论在自然界还是在人类社会,"合作"都是一种随处可见的现象。那么,问题就出现了:到底是何种机制促使生物体或者人类进行相互合作呢? ----这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家,对合作的问题久有研究兴趣。为了进行关于合作的研究,他组织了一场计算机竞赛。这个竞赛的思路非常简单:任何想参加这个计算机竞赛的人都扮演"囚徒困境"案例中一个囚犯的角色。他们把自己的策略编入计算机程序,然后他们的程序会被成双成对地融入不同的组合。分好组以后,参与者就开始玩"囚徒困境"的游戏。他们每个人都要在合作与背叛之间做出选择。 ----但这里与"囚徒困境"案例中有个不同之处:他们不只玩一遍这个游戏,而是一遍一遍地玩上200次。这就是博弈论专家所谓的"重复的囚徒困境",它更逼真地反映了具有经常而长期性的人际关系。而且,这种重复的游戏允许程序在做出合作或背叛的抉择时参考对手程序前几次的选择。如果两个程序只玩过一个回合,则背叛显然就是唯一理性的选择。但如果两个程序已经交手过多次,则双方就建立了各自的历史档案,用以记录与对手的交往情况。同时,它们各自也通过多次的交手树立了或好或差的声誉。虽然如此,对方的程序下一步将会如何举动却仍然极难确定。实际上,这也是该竞赛的组织者爱克斯罗德希望从这个竞赛中了解的事情之一。一个程序总是不管对手作何种举动都采取合作的态度吗?或者,它能总是采取背叛行动吗?它是否应该对对手的举动回之以更为复杂的举措?如果是,那会是怎么样的举措呢? ----事实上,竞赛的第一个回合交上来的14个程序中包含了各种复杂的策略。但使爱克斯罗德和其他人深为吃惊的是,竞赛的桂冠属于其中最简单的策略:一报还一报(TIT FOR TAT)。这是多伦多大学心理学家阿纳托·拉帕波特提交上来的策略。一报还一报的策略是这样的:它总是以合作开局,但从此以后就采取以其人之道还治其人之身的策略。也就是说,一报还一报的策略实行了胡萝卜加大棒的原则。它永远不先背叛对方,从这个意义上来说它是"善意的"。它会在下一轮中对对手的前一次合作给予回报(哪怕以前这个对手曾经背叛过它),从这个意义上来说它是"宽容的"。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是"强硬的"。而且,它的策略极为简单,对手程序一望便知其用意何在,从这个意义来说它又是"简单明了的"。 ----当然,因为只有为数不多程序参与了竞赛,一报还一报策略的胜利也许只是一种侥幸。但是,在上交的14个程序中,有8个是"善意的",它们永远不会首先背叛。而且这些善意的程序都轻易就赢了6个非善意的程序。为了决出一个结果来,爱克斯罗德又举行了第二轮竞赛,特别邀请了更多的人,看看能否从一报还一报策略那儿将桂冠夺过来。这次有62个程序参加了竞赛,结果是一报还一报又一次夺魁。竞赛的结论是无可争议的。好人,或更确切地说,具备以下特点的人,将总会是赢家。 ---- 1.善意的; 2.宽容的; 3.强硬的; 4.简单明了的。 ----一报还一报策略的胜利对人类和其他生物的合作行为的形成所具有的深刻含义是显而易见的。爱克斯罗德在《合作进化》一书中指出,一报还一报策略能导致社会各个领域的合作,包括在最无指望的环境中的合作。他最喜欢举的例子就是第一次世界大战中自发产生的"自己活,也让他人活"的原则。当时前线战壕里的军队约束自己不开枪杀伤人,只要对方也这么做。使这个原则能够实行的原因是,双方军队都已陷入困境数月,这给了他们相互适应的机会。 ----一报还一报的相互作用使得自然界即使没有智能也能产生合作关系。这样的例子很多:真菌从地下的石头中汲取养分,为海藻提供了食物,而海藻反过来又为真菌提供了光合作用;金蚁合欢树为一种蚂蚁提供了食物,而这种蚂蚁反过来又保护了该树;无花果树的花是黄蜂的食物,而黄蜂反过来又为无花果树传授花粉,将树种撒向四处。 ----更广泛地说,共同演化会使一报还一报的合作风格在这个充满背信弃义劣行的世界上蔚然成风。假设少数采取一报还一报策略的个人在这个世界上通过突变而产生了。那么,只要这些个体能互相遇见,足够在今后的相逢中形成利害关系,他们就会开始形成小型的合作关系。一旦发生了这种情况,他们就能远胜于他们周围的那些背后藏刀的类型。这样,参与合作的人数就会增多。很快,一报还一报式的合作就会最终占上风。而一旦建立了这种机制,相互合作的个体就能生存下去。如果不太合作的类型想侵犯和利用他们的善意,一报还一报政策强硬的一面就会狠狠地惩罚他们,让他们无法扩散影响。 ----现在,对博弈论的研究是如此地广泛,以致于有些人说最新的经济学和管理科学都已经利用博弈论的理论和工具重写过了。博弈论中有很多有趣而富于哲理的案例,一报还一报就是其中的一个。它那种善意、宽容、强硬、简单明了的合作策略无论对个人还是对组织的行为方式都有很大的指导意义。 -------------------------------------------------------------------------------- ~{Q'':#N^QBGZWwV[#!~} ~{Q''WvHK!"Q''V*J6!"Q''>-Qi!#~} -------------------------------------------------------------------------------- [ 本文发表于 2002年10月16日 12:56:35 ] Perfume 军衔: PMU初级一星 财产: 经验: 魅力: 来自: 不告诉你 :) 鉴定: 本功能已经被关闭 发帖: 63篇 注册: 2002-5-30 -------------------------------------------------------------------------------- 囚徒困境与仁者无敌 ● 肖知兴 ----大智若愚,大德若缺,大赢若输。仁者无敌,战胜的是人类与生俱来最为凶险的敌人——自身的贪婪。 ----写这篇文章之前,与一个久经商场的朋友闲聊。他感慨在商场上必须见血封喉,不可动丝毫恻隐之心,否则一定会“死得很难看”。我说其实商场上的大智慧还是中国人的一句老话,仁者无敌。朋友不解。我说这并不是向你灌输“不鼓不成列”的宋襄公式“蠢猪式的仁义”。仁者无敌其实也是西方博弈论、战略学研究的结果。说来话长,我们先从博弈论上著名的“囚徒困境”(Prisoner’s Dilemma,简称PD)说起。 ----囚徒困境一般在入门的博弈论教科书的第一章都有介绍。甲乙同案犯,隔离审讯。如果两个都不招,因为证据不充分,两人都只能判1年。如果一方招了,属立功表现,功罪相抵,无罪释放;而另一方则属抗拒从严,判10年。但如果两人都招了,则各判 5 年。结果大家都知道:两个人争先恐后地招了,结结实实地各判了5年。 ----基于个人理性的正确选择降低了大家的福利。道理很简单。重要的是能够举一反三。其实,人们在生活中处处都有囚徒困境:幼儿园小朋友互相分享玩具(给他玩,不给他玩);情窦初开的男女互相表白爱情(表白,不表白);公共走廊卫生的维持(不扔垃圾,扔垃圾);老板与下属的关系(信任,不信任);商场上,生意伙伴的非正式合同,或君子协定(不违约,违约);竞争对手打价格战(不降价,降价);国家间的对抗(和平,战争),等等。虽然括号内前者都是大家想要达到的目标,自私(理性选择)的结果却是大家不得不接受后者。小朋友仍在自己玩自己的玩具,虽然慢慢有点厌烦;韶华已逝的男女偶然发现当年对方暗恋的都是自己,徒呼奈何;你扔垃圾我也扔垃圾的结果是公共走廊难以找到下足之地;怕下属营私而事必躬亲的老板丧失了业务机会;怕对方违约的商人自己也没有做成买卖;怕竞争对手降价后独占市场的商家们竞相杀价,把一个又一个行业做烂;怕吃亏的国家之间也是永远战火绵连。可谓“你我谁不是囚徒,天下何处无困境!” ----当然,家人、熟人、朋友间,因为爱、友情、伦理道德、社会规范(如面子)的存在,很多囚徒困境往往可以被克服。在这些情境里,人们并不完全是理性的经济人。但公司里,商场上,还有国家之间,要解决囚徒困境就没那么容易了。本文开头朋友慨叹的商场残酷,相当于在囚徒困境的选择中,不可单方面选有利于双方的选择 (如上例中的信任、不违约、不降价)。 否则,你拿的结果是四种结果中最差的一种,赔了夫人又折兵。 ----既然如此,仁者无敌又从何说起?妙门在于,上述囚徒困境说的都是一次性博弈(One short game),一锤子买卖。如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解。道理很简单。火车站边卖的东西质量差,餐馆没法吃,因为顾客多是一次性的过路人;小区里小店质量、服务可能不错,因为他们靠的是回头客。店主都是为自己的利益考虑,但结果对大家都有利,所谓开明的自利(Enlightened selfishness)。连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。 ----但合作的可能性不是必然性。肮脏不堪的公共宿舍走廊有的是。哪些走廊能把卫生一直保持下去呢? 博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺(Credible commitment) ,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护这个声誉。公共宿舍的居住者中必须出现一个带头人,以身作则,率先起来打扫卫生,形成人人维护公共卫生的风尚。但带这个头,说起来容易做起来却难。 ----做生意双方基于信任,君子协定,握手成交,既节约时间又省下请律师的钱,大家都知道合算,然而多少书生意气的人却为这“君子”二字赔得吐血。但如果是重复博弈,在实力强的一方作出可信的承诺的情况下,双方却有可能形成长久稳定的合作关系。近年来学术上广泛讨论的虚拟企业、网络企业,就是这种企业间基于互信而建立长久合作关系的例子,如著名的“丰田生产方式”。 ----再举一个公司内部管理的例子。大家都说求才容易留才难,到处是铁打的公司流水的雇员。老板们总是大声疾呼他们如何地求才若渴。问问该公司内部的人,或者从该公司离开的人,你得到的往往却是一个叶公好龙的印象:薪水待遇不比同行业高;舍不得花钱做培训;工作上没有信任,不能让人放手去干;说好的分成计划、奖励计划、持股计划,转眼成了云烟。没有任何可信的承诺,凭什么让人为你卖命?这里“可信的承诺”是一个很牵强的翻译,“Credible commitment”并不是什么空口诺言,而是实实在在的付出。合作之难,难在无人愿意作出这第一步的有风险的付出,难在一个“仁”字。 ----1984年Robert Axelrod出版了一本薄薄200来页的《合作的进化》(The Evolution of Cooperation),20多年来畅销不衰,几乎成了西方战略学者、管理学者们的必读书之一。其核心也是这个道理。Axelrod 做了一个试验。他邀请学者们为一个重复囚徒困境游戏设计战略。然后把所有人设计的战略输入电脑,每个人的战略分别和其余各人的战略对弈,重复200次。第一次有15个战略竞争,第二次有63个战略竞争。实验的结果,总得分排在前面的战略有一个共同特点:善良,即他们不主动先背叛对方。两次都荣获第一的是几乎最简单的“一报还一报”战略(Tit for tat),他不仅善良,不首先背叛对方,而且宽容,对方背叛一次他只惩罚对方一次。更为发人深省的是,每次博弈,他的得分都不比对方高(最多与对方一样高)。他的成功不是建立在别人失败的基础上,而是建立在别人成功的基础之上。他没有赢取任何一场战斗,却赢得了整场战争。大智若愚,大德若缺,大赢若输。“仁者无敌”不是说他战胜所有的敌人,而是他根本就没有敌人,或者说,他战胜的是人类与生俱来最为凶险的敌人:自身的贪婪。 ----研究产权制度和西方经济史的朋友们大多清楚,1688年英国限制国王收税权和其他权力的光荣革命,对西方世界的兴起意义重大。所谓“捆住国王的手”,对产权的普遍保障,作为一种可信的承诺,是西方资本主义发展以及西方世界兴起的制度渊源。吴思在《潜规则》一书中描绘的中国封建王朝的历史,则是一个反面的典型。暴力集团对农民阶层,以及封建后期新兴的工商阶层横征暴敛的结果是,财富的生产者们都丧失了生产的动力。你不仁,我不义。“王侯将相,宁有种乎?”反吧!一将功成万骨枯,历史成了轮盘赌,每三五百年再赌一把,在轮回中走向堕落。两千多年前用一生写就一个“仁”字的孔夫子,念及于此,也该“独怆然而泪下”了吧。 ----(本文作者系法国枫丹白露欧洲商学院(INSEAD)管理学博士)
|