158文章网欢迎您
您的位置:158文章网 > 范文示例 > 博弈论经典案例之囚徒困境

博弈论经典案例之囚徒困境

作者:158文章网日期:

返回目录:范文示例

今天小编给各位分享博弈论案例分析的知识,文中也会对其通过博弈论经典案例之囚徒困境和如何理解博弈论中的囚徒困境?等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘了关注本站,现在进入正文!

内容导航:
  • 博弈论经典案例之囚徒困境
  • 如何理解博弈论中的囚徒困境?
  • 囚徒困境这个经典的博弈论故事说明了什么道理?
  • 博弈论-囚徒困境与重复囚徒困境的启示
  • 一、博弈论经典案例之囚徒困境

    囚徒困境是博弈论中非零和博弈的代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中囚徒困境的例子屡见不鲜。

    问题

    假设有两个小偷A和B联合犯事:私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出相同的政策:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,也就是立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。

    分析

    此时产生了两个嫌疑人之间的一场博弈:

    表中的数字表示A,B各自的判刑结果。

    该案例,显然最好的策略是双方都抵赖,结果是大家都只被判1年。但是由于两人处于隔离的情况,从心理学的角度来看,当事双方都会怀疑对方会出卖自己以求自保,此处假设每个人都是“理性的经济人”,都会从利己的目的出发进行选择。这两个人都会有这样一个盘算过程:假如他坦白,如果我抵赖,得坐10年监狱,如果我坦白最多才8年;假如他要是抵赖,如果我也抵赖,我就会被判一年,如果我坦白就可以被释放,而他会坐10年牢。综合以上几种情况考虑,不管他坦白与否,对我而言都是坦白了划算。两个人都会动这样的脑筋,最终,两个人都会选择坦白,结果都被判8年刑期。

    结论

    这个故事告诉我们,千万不要当小偷

    一、如何理解博弈论中的囚徒困境?

    这篇我们来聊聊博弈论中著名的 囚徒困境 ,囚徒困境是1950年美国兰德公司的梅里尔·弗勒德和梅尔文·德雷希尔拟定出相关困境的理论,后来由顾问艾伯特·塔克,以囚徒方式阐述,并命名为"囚徒困境"。

    一、囚徒困境中的博弈

    囚徒困境描述的是一个关于两名罪犯被警察抓住的故事,我们把这两个罪犯分别叫做A和B,假设二人都犯了盗窃车辆罪,需要各自判刑一年,由于警察还怀疑他俩存在抢劫银行的嫌疑,但缺乏足够的证据,所以警察有了如下的论述:

    现在我们可以关你1年,但是如果你承认了抢劫银行,并供出你的同伙,我们将免除你的刑期,你的同伙将获得10年刑期,如果我们掌握了证据,那么就不需要你的供词,你和你的同伙将各自获得8年刑期

    此时,这两位囚徒A和B,各自有两种策略: 坦白 或者 保持沉默 ,故有了如下的博弈过程:

    此时的A会思考:

    同样的道理,此时的B也是这样想的,无论A如何做,选择坦白对他也是最有利的。

    根据上面的博弈过程,就有了如下四种情况:

    根据四种情况,我们依次画图:

    A和B明明都选择了对自己最优的策略,为什么却得到了最糟糕的结果?明明二人都保持沉默,只有1年的刑期,结果都坦白,导致了8年的刑期,我们假设一种情况:如果两名罪犯A和B在被抓捕之前,两人商量好都保持沉默,会导致最终结果的改变吗?答案是不会,即使两人已经商量好,但是一旦他俩被分开审讯,那么 利己的原则 就会不自然地起主导作用,因为从个人的角度来看,合作是不理性的。

    二、经济中的囚徒困境

    经济学中的 寡头垄断 场景和囚徒困境非常相似,假设有两家石油公司A和B,他俩共同拥有一块价值1200万的石油田,假设钻一口井需要100万,如果每个公司都选择钻一口井,那么当前总共有2口井,各占1200*1/2=600万的油田,那么双方的利润都为600-100=500万,此时,双方又产生了类似囚徒困境的博弈:

    A公司此时这样想:

    综上所述,A公司绝对会选择继续钻一口井,而B公司同理也会选择继续钻井,故产生了如下四种情况:

    再次验证了上面的结论,A和B本来都能获得500万利润,但由于 利己原则 的作用,都走向了糟糕的结果。

    比如第一个例子,正是因为囚徒困境的存在,导致嫌疑犯之间缺乏合作意愿,这样的话,警察可以使更多罪犯认罪伏法,总结为一句话:

    囚徒困境对囚徒来说是一种困境,但对其他每个人来说都是一种福音

    以上仅代表个人观点,如果对你有所帮助,麻烦素质三连一波,有不同观点的小伙伴,评论区留言,我会不定时查看,感谢各位观看!!!

    二、囚徒困境这个经典的博弈论故事说明了什么道理?

    案例研究 囚犯两难处境的比赛
    假想你正与被关在另一个屋子里的“嫌疑”人进行囚犯两难处境的博弈。而且,再设想这种博弈不是进行一次而是多次。你博弈最后的得分是你被监禁的总年数。你希望使这种得分尽可能地少。你应该用什么战略?你应该从坦白还是保持沉默开始?另一个参与者的行动会如何影响你以后的坦白决策?
    多次的囚犯两难处境是极为复杂的博弈。为了鼓励合作,参与者应该相互惩罚不合作行为。但以前描述的杰克和吉尔的水卡特尔的战略——只要另一方违约,一方就永远违约——得不到宽恕。在反复许多次的博弈中,在不合作时期之后,允许参与者回到合作结果的战略,可能是较合人意的。
    为了说明哪一种战略最好,政治学家罗伯特?阿克塞尔罗德(Robert Axelrod)进行了一场比赛。人们通过输人为反复进行囚犯的两难处境而设计的电脑程序进入比赛。每个进行博弈的程序都对应于所有其他程序。得到狱中总年数最少的程序的是“赢家”。
    赢家结果是被称为一报还一报的简单战略。根据一报还一报,参与者应该从合作开始,然后上一次另一个参与者怎么作自己也怎么做。因此,一报还一报参与者要一直合作到另一方违约时为止;他违约到另一方重新合作时为止。换句话说,这种战略从友好开始,惩罚不友好的参与者,而且,如果对方改变就给予原谅。令阿克塞尔罗德惊讶的是,这种简单的战略比人们输人的所有较复杂的战略都好。

    三、博弈论-囚徒困境与重复囚徒困境的启示

    博弈论-囚徒困境与重复囚徒困境的启示

    “囚徒困境”

    囚徒困境(prisoner’s dilemma):讨论的是两个被捕的囚徒之间的一种博弈,它阐明了为什么“在合作对双方都有利时,保持合作也是困难的”。

    囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。

                 B-坦白      B-抵赖

    A-坦白    8  , 8         0, 10

    A-抵赖    10, 0         1, 1

    然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,不坦白的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,不坦白的话判十年,坦白还是比不坦白好。最终的结果,两个嫌疑犯都选择坦白,各判刑八年。

    在囚徒困境中,如果两人选择合作,即两人都抵赖,各判一年,显然是最好的结果。但由于大家都优先考虑自己的最优选择,导致了最终整体选择并不是最好的。

    囚徒困境所反映出的深刻问题是,个人利益的最大化并不能保证集体利益的最大化,自以为聪明的人可能会作茧自缚。

    “重复囚徒困境”与“艾克斯罗德博弈论实验”

    囚徒困境是一个一次性的博弈实验,如果增加博弈的次数,让每个参与者都有机会去“惩罚”对方前一个回合的行为,此时每个参与者的决策可能会发生变化。其中最有名的实验莫过于艾克斯罗德的博弈实验。

    艾克斯罗德组织了一场计算机竞赛:任何想参加这个计算机竞赛的人都扮演“囚徒困境”案例中一个囚犯的角色。他们把自己的策略编入计算机程序,然后随机的与其他人进行囚徒困境博弈,每次博弈完毕后会获得一定的分数,并且每个人在进行博弈前都能够清楚的知道对方的历史博弈情况,每个参赛选手都会进行200次博弈对决。

    博弈分数的设计如下:

                    对方-好意    对方-恶意

    自己-好意   2,2           0,3

    自己-恶意   3,0           1,1

    初看会发现,如果这是一个一次性博弈,不管对方选择好意还是恶意,自己选择恶意都是最优的,都将赢得更高的分数。但如果每个人都这么想,每次博弈大家都只增加1分,每个人分数的增长都会非常的缓慢。实验的最终结果是怎么样的呢?采取什么策略会赢得最高的分数呢?

    “艾克斯罗德博弈论实验”的结果

    艾克斯罗德博弈论实验,计算机竞赛提交上来的程序包含了各种复杂的策略。让人感到吃惊的是, 竞赛的桂冠属于其中最简单的策略:一报还一报(TIT FOR TAT) 。这是多伦多大学心理学家阿纳托拉帕波特提交上来的策略。

    一报还一报的策略是这样的:

    1)它总是以合作开局

    2)但从此以后就采取以其人之道还治其人之身的策略

    这个策略永远不先背叛对方,从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报(哪怕以前这个对手曾经背叛过它),从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是“强硬的”。而且,它的策略极为简单,对手程序一望便知其用意何在,从这个意义来说它又是“简单的”。

    为了证明一报还一报策略的胜利不只是一种侥幸,艾克斯罗德又举行了多场竞赛,并邀请了更多的人,但这个策略一次又一次的夺魁,竞赛的结论无可争议。

    重复囚徒困境结论

    人的一生中会有非常多次的选择,有时候吃亏,有时候占了便宜。善意的决策可能吃亏,又或者恶意的背叛可能占便宜,但所有的过往,都会成为别人今后和你合作时进行决策的依据。

    好人,更确切地说,具备以下特点的人,将会成为最终的赢家 :

    1) 善意的 :ta不会首先背叛别人

    2) 宽容的 :别人曾经背叛过ta,但前一次合作是善意的,ta会原谅别人

    3) 强硬的 :前一次合作背叛了ta,ta下一次合作会进行惩罚

    4) 简单纯粹的 :简单纯粹的原则让彼此都更加轻松

    关于博弈论案例分析的问题,通过《囚徒困境这个经典的博弈论故事说明了什么道理?》、《博弈论-囚徒困境与重复囚徒困境的启示》等文章的解答希望已经帮助到您了!如您想了解更多关于博弈论案例分析的相关信息,请到本站进行查找!

    相关阅读

    • 博弈论经典案例之囚徒困境

    • 158文章网范文示例
    • 今天小编给各位分享博弈论案例分析的知识,文中也会对其通过博弈论经典案例之囚徒困境和如何理解博弈论中的囚徒困境?等多篇文章进行知识讲解,如果文章内容对您有帮助,别忘
    关键词不能为空

    范文示例_作文写作_作文欣赏_故事分享_158文章网