囚徒困境(什么是囚徒困境?)
什么是“囚徒困境”,举出你在社会生活中观察到的“囚徒困境”的例子。
囚徒困境(prisoner's dilemma)是指两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人更佳选择并非团体更佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护、人际关系等方面,也会频繁出现类似情况。
例子:北大清华的状元之争是一个典型的囚徒困境。囚徒困境是社会合作面临的更大难题,它深刻揭示了个体理性和集体理性之间的矛盾和冲突:个体按照自身利益更大化的原则采取对自己最有利的占优战略,得到的却不一定是自己最想要的结果,相反可能导致集体的非理性。
就生源竞争而言,对于北大来说,无论清华抢不抢状元,抢状元都是北大的更好选择,即更优战略;对于清华来说也是一样。
用博弈论的专业术语来表述,(抢状元,抢状元)构成了北大清华招生博弈的纳什均衡。纳什均衡是一个僵局,给定对手不改变行为,自己就没有激励改变行为,因而无法打破或单独偏离均衡。
纳什均衡最深刻的悲剧性在于,北大和清华都意识到抢状元是毫无意义的,但抢状元却是他们必然的选择。
即使两所大学都认同不抢状元是更好的,但这个结果却得不到,因为每所大学都不得不采取对自己最有利的行动——抢状元。除非引入第三方力量改变博弈结构,否则囚徒困境就不可能被打破。
什么是囚徒困境?
一件严重的纵火案发生后,警察在现场抓到两个犯罪嫌疑人。事实上,正是他们一起放火烧了这座仓库。但是,警方没有掌握足够的证据,只得把他们隔离囚禁起来,要求他们坦白交代。
在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙——即与警察合作,从而背叛他的同伙;或者保持沉默——也就是与他的同伙合作,而不是与警察合作。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。
但警方也很明白这一点,所以就决定对两个囚犯来点 *** :如果他们都承认纵火,每人将被判入狱3年;如果他们都不承认,每人将因为缺乏证据而都被释放:如果一个抵赖而另一个坦白并且愿意出来作证,那么抵赖的将被判入狱5年,还要对他施以罚款,而坦白者将被宽大处理——释放,同时还可以得到一笔奖金。
那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?
从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到更好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。
A犯不是个傻子,他根本无法相信同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会同样来这样设想他。
所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服审,起码他不必服最重的刑。
一番博弈的结果就是。这两个囚犯按照自己的逻辑做出行动,双双坐牢。
上面的故事反应了人们的一种博弈心理,它在心理学上被称作“囚徒困境”,最早是由美国普林斯顿大学的数学家增克于1950年提出来的。他当时创造出这样一个故事是为了向美国斯坦福大学的一群心理学家们解释什么是博弈论。后来,“囚徒困境”演绎出许多版本,成为博弈论中最著名的案例。
“囚徒困境”告诉我们,在一个存在着相互作用的博弈中,更好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。
在大家都非常熟悉的国内的家电大战中,虽然不是两个对手之间的博弈,但由于在众多对手当中,每一方的市场份额都很大,每一个主体人的行为后果受对手行为的影响都很大,因此,其情景大概也是如此。
因而,如果清楚这种前景,双方勾结或合作起来,都实行比较高的价格,那么双方都可以因为避免价格大战而获得较高的利润。有人把这样一种合作的做法,叫做“双赢对局”。而这样的结果,往往双方将都是“双赢对局”的赢家。
可惜这些联盟也往往处于利益驱动的“囚徒困境”。而双赢也就成为泡影。五花八门的价格联盟总是非常短命,道理就在这里。
举例来说,在公共汽车上,两个陌生人会为一个座位争吵,如果他们认识,可能就会相互谦让。在夜市地摊、车站和旅游景点等人群流动性大的地方,不但商品和服务质量最差,而且假冒伪劣横行,因为在商家和顾客之间没有后续的博弈,顾客不大可能因为饭菜可口而再次光临。既然是一锤子买卖,不赚白不赚。
也正是这种心理所驱使,如果一厢情愿地选择合作就要受到惩罚。约翰逊总统在向一群商业界头面人物说明需要大量资金同前苏联进行 *** 竞赛时,曾经通过下面这个故事来说明这个道理:
1861年,一位得克萨斯州人离家前去参加南军士兵阵营。他告诉他的邻居他很快就会回来,这场战争不会费力:“因为我们能用扫帚柄揍这些北方佬。”两年后,他才重返故里,少了一条腿。
他的邻居向这位神情悲惨、衣衫褴褛的伤兵询问到底发生了什么事:“你不是说过战争不费力,你们能用扫帚柄揍这些北方佬吗?”
可是在生活中的大部分情境中,人与人之间都会存在一些后续的接触和博弈。那么在这种情况下,我们又应该如何决策呢?
显然,一味地以德报怨不可取,因为这样只是将别人的人生成本转嫁到自己头上;而一味地以怨报德也不可取,因为这样将慢慢失去大多数的博弈伙伴和机会。
所以,更好的决策 *** 还是囚徒困境教给我们的:以德报德、以怨报怨的反射决策。
事实上,这也是日常生活中多数人的理性选择,也是一个很具适应性的规则。它的有效是由于其他规则预料到它的存在,并且被设计得与它很好相处。因为要和“反射决策”很好相处,就必须采取合作态度,即使那些伺机占便宜而不被惩罚的规则,也很快改变,因为任何想占“反射决策”便宜的规则最终将伤害自己。
要使这一决策方式发生作用,必须满足以下条件:
特征是显著而且容易识别的;
一旦被识别出来,就必须使对方明白会对一切背叛进行报复,并且使对方很难解脱。
数学家约翰·冯诺依曼曾说过:“在一个存在着相互作用的博弈中,更好的策略直接取决于对方采用的策略,特别是取决于这个策略为发展双方合作留出多大的余地。”
总之,反射决策能够赢得竞赛不是靠打击对方,而是靠从对方引出使双方都有好处的行为。
什么是“囚徒困境”,举出你在社会生活中观察到的“囚徒困境”的例子。
1950年,由就职于兰德公司的梅里尔?弗勒德(Merrill
Flood)和梅尔文?德雷希尔(Melvin
Dresher)拟定出相关困境的理论,后来由顾问艾伯特?塔克(Albert
Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下:
警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择:
若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。
若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。
若二人都互相检举(互相“背叛”),则二人同样判监2年。
用表格概述如下:
甲沉默(合作)甲认罪(背叛)
乙沉默(合作)二人同服刑半年
甲即时获释;乙服刑10年
乙认罪(背叛)甲服刑10年;乙即时获释
二人同服刑2年
现实的例子
上述例子可能显得不甚自然,但现实中,无论是人类社会或大自然都可以找到类似囚徒困境的例子,将结果划成同样的支付矩阵。社会科学中的经济学、政治学和社会学,以及自然科学的动物行动学、进化生物学等学科,都可以用囚徒困境分析,模拟生物面对无止境的囚徒困境博弈。囚徒困境可以广为使用,说明这种博弈的重要性。以下为各界例子:
政治学例子:军备竞赛
在政治学中,两国之间的军备竞赛可以用囚徒困境来描述。两国都可以声称有两种选择:增加军备(背叛)、或是达成削减武器协议(合作)。两国都无法肯定对方会遵守协议,因此两国最终会倾向增加军备。似乎自相矛盾的是,虽然增加军备会是两国的“理性”行为,但结果却显得“非理性”(例如会对经济造成都有损坏等)。这可视作遏制理论的推论,就是以强大的军事力量来遏制对方的进攻,以达到和平。
囚徒困境的更优策略是什么?
囚徒困境的更优策略是以牙还牙:每一次都复制对方上一步的策略。
在现实生活中,我们会遇到很多类似囚徒困境的博弈情况,以牙还牙并不是更优解,因为我们很有可能会遇到两种情况。
1、对方由于操作失误而产生背叛。
2、自己对对方操作的理解发生偏差。
基于这两种情况,宽容的以牙还牙策略是更优解,即在对方之一次背叛时我们选择宽容,第二次背叛时采用以牙还牙策略,这样就避免了因上面说的两种失误而产生的局势错判,充分保证了游戏的持续进行。
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人更佳选择并非团体更佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护、人际关系等方面,也会频繁出现类似情况。
理论起源
囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。
于是,每个囚徒都面临两种选择:坦白或抵赖。
然而,不管同伙选择什么,每个囚徒的更优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判十年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,比起抵赖的判十年,坦白还是比抵赖的好。
结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性-聪明的人类会因自己的聪明而作茧自缚,或者损害集体的利益。
囚徒困境是什么意思?
“囚徒困境”的故事
囚徒困境是一种非合作博弈,它的主旨为,囚徒们虽然彼此合作,坚决不吐实情,可为全体带来更佳利益(无罪开释),但在资讯不明的情况下,出卖同伙可为自己带来利益(缩短刑期),而被同伙招出来可为他带来利益,因此彼此出卖虽违反更佳共同利益,反而是自己更大利益所在。
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人的更佳选择并非是团体的更佳选择。
囚徒困境是一种非合作博弈,它的主旨为,囚徒们虽然彼此合作,坚决不吐实情,可为全体带来更佳利益(无罪开释),但在资讯不明的情况下,出卖同伙可为自己带来利益(缩短刑期),而被同伙招出来可为他带来利益,因此彼此出卖虽违反更佳共同利益,反而是自己更大利益所在。
囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人的更佳选择并非是团体的更佳选择。
囚徒困境是什么意思???
囚徒困境(prisoner's dilemma)是指两个被捕的囚徒之间的一种特殊博弈,说明为什么甚至在合作对双方都有利时,保持合作也是困难的。
在这个博弈中,参与者必须反复地选择他们彼此相关的策略,并且记住他们以前的对抗。阿克塞尔罗德邀请全世界的学术同行来设计计算机策略,并在一个重复囚徒困境竞赛中互相竞争。参赛的程序的差异广泛地存在于这些方面,算法的复杂性、最初的对抗、宽恕的能力等等。
囚徒困境的条件:
1、友善
最重要的条件是策略必须“友善”,这就是说,不要在对手背叛之前先背叛。几乎所有的高分策略都是友善的。因此,完全自私的策略仅仅出于自私的原因,也永远不会首先打击其对手。
2、报复
但是,阿克斯洛德主张,成功的策略必须不是一个盲目乐观者。要始终报复。一个非报复策略的例子是始终合作。这是一个非常糟糕的选择,因为“下流”策略将残酷地剥削这样的傻瓜。
3、宽恕
成功策略的另一个品质是必须要宽恕。虽然它们不报复,但是如果对手不继续背叛,它们会一再退却到合作。这停止了报复和反报复的长期进行,更大化了得分点数。
以上内容参考:百度百科—囚徒困境
本网站文章仅供交流学习 ,若来源标注错误或侵犯到您的权益烦请告知,我们将立即删除. 邮箱jdapk@qq.com