囚徒困境是1950年由梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)提出的相關(guān)困境理論,后由艾伯特·塔克(Albert Tucker)以囚徒方式闡述并命名。其主要理念是:博弈雙方基于對對方的不信任和自身利益最大化考量,往往選擇對對方不利的選擇,導(dǎo)致利益最小化。
其情節(jié)為:共同犯罪的AB兩人,被捕后處于信息不對稱的狀態(tài),出現(xiàn)三種情況:若一人認(rèn)罪并作證檢控對方(背叛),而對方保持沉默,此人將即時獲釋,沉默者將判監(jiān)10年;若二人都保持沉默(相關(guān)術(shù)語稱互相“合作”),則二人同樣判監(jiān)半年;若二人都互相檢舉(互相“背叛”),則二人同樣判監(jiān)2年。
在生活中隨處可見囚徒困境博弈,廣泛應(yīng)用于政治學(xué)、經(jīng)濟學(xué)、社會學(xué)、商業(yè)、司法等領(lǐng)域, 具體體現(xiàn)在如軍備競賽、征地問題、公益訴訟問題、關(guān)稅戰(zhàn)、市場價格戰(zhàn)、訴訟、見義勇為困境等,每個困境都有從納什均衡轉(zhuǎn)向維爾弗雷多·帕累托最優(yōu)解的解決方案,可能在進行多次博弈后才能慢慢向最優(yōu)解靠近。通過對基礎(chǔ)理論的研究,延伸出重復(fù)囚徒困境博弈、空間囚徒困境博弈、非對稱囚徒困境博弈,每個模型都有助于雙方進行更理性的合作。與囚徒困境博弈模型相類似的還有雪堆博弈和公共品博弈,囚徒困境反映了集體理性和個人理性的沖突,理性人的個人理性行為可能導(dǎo)致集體非理性,理性人會從個人利益出發(fā)做出對自己最有利的行為,為了達到集體最優(yōu)解,個人需要抑制對自利的追求。在現(xiàn)實生活中,人們應(yīng)該彼此信任建立合作關(guān)系。
定義與提出
“囚徒困境”是經(jīng)濟學(xué)家常用的一種博弈論模型,是非零和博弈中最典型的例子之一,互不信任的雙方在不知道對方選擇的情況下做出對自己最有利的選擇。學(xué)者用其來描述個體的理性最終會導(dǎo)致集體不理性結(jié)局的情況。1950 年,就職于蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關(guān)困境的理論,后來顧問艾伯特·塔克( Albert Tucker)利用囚徒的故事具體闡述該理論,將其命名為囚徒困境。
理論內(nèi)涵
假定兩個犯人共同實施了犯罪行為,被捕入獄后都想盡早獲得釋放,警察對其分開拘押審問,并告訴他們:如果一個人坦白,而另一個人不坦白,坦白的一方會因立功被立即釋放,不坦白的一方獲刑10年;如果兩人都坦白,則每人均因證據(jù)確鑿而各判 8 年;如果兩人都抵賴,因證據(jù)不足,則每人在關(guān)押 1 年后釋放。在這套規(guī)則之下,基于理性人的考量,對于兩個囚徒集體而言,其維爾弗雷多·帕累托最優(yōu)解是“都不坦白”,但最終結(jié)果是兩人都坦白而各自被判八年。博弈論為囚徒困境提供的納什均衡解案是雙方坦白,但收益沒有達到最大化。
典型的2*2囚徒困境博弈模型結(jié)果有四種:(合作,合 作),(合作,背叛),(背叛,合作),(背叛,背叛),雙方都選擇合作時,帶來的收益最高;當(dāng)一方選擇背叛,選擇背叛的一方獲得更高收益,但雙方都選擇背叛時,各自都獲得收益,但對集體而言,收益是降低的(相較于選擇合作獲得的收益),個人理性帶來了集體的非理性。囚徒困境體現(xiàn)兩個個體在涉及到利益爭奪時,是立足大局,愿意相互協(xié)同、合作共贏,還是重視個人利益,傾向于互相背叛、彼此詐欺,博弈結(jié)果是雙方同時背叛,因為人類有利己天性。
囚徒困境反映了集體理性和個人理性的沖突,利益驅(qū)動下,出于對對方的不信任,理性個人會根據(jù)自己的利益做出對個體最優(yōu)的行為,但對集體而言不一定是最優(yōu)選擇,個人利益最大化造成集體非理性。理性人從個人利益最大化出發(fā),選擇不合作是最優(yōu)解,但現(xiàn)實生活中,抑制自己的自利需求,選擇合作是走出囚徒困境的最佳路徑。
理論應(yīng)用
政治學(xué)
軍備競賽
對于國家博弈的囚徒困境,美蘇冷戰(zhàn)是典型案例,冷戰(zhàn)背景下,擺在兩個國家面前的兩種選擇:裁軍或擴軍,出現(xiàn)四個局面:當(dāng)雙方均選擇擴軍時,雙方相互對峙,付出更多成本進一步擴軍,加劇戰(zhàn)爭風(fēng)險;有一方選擇擴軍時,實力不對等的一方受到的戰(zhàn)爭威脅更大;雙方均裁軍時,不必支付額外開支,也沒有戰(zhàn)爭風(fēng)險,但兩國都不會選擇此方案。盡管雙方裁軍是普拉提最優(yōu)解,但是站在國家角度,擴軍總是比裁軍有益。
政府評價
政府績效評估中,政府有兩種選擇:主動組織、被動接受;公眾有兩種選擇:主動參與、被動參與。會出現(xiàn)四種結(jié)果:政府主動組織,公眾主動參與;政府主動組織,公眾被動參與;政府被動組織,公眾主動參與;政府被動組織,公眾被動參與。這與傳統(tǒng)的囚徒困境模型不同,這種情況下,雙方都主動才能實現(xiàn)效益最大化,雙方都不主動,意味著成本降低、程序簡化,但不利于社會長遠發(fā)展。
經(jīng)濟學(xué)
關(guān)稅戰(zhàn)
美國與中國的關(guān)稅戰(zhàn)是2*2囚徒困境重復(fù)博弈,雙方最優(yōu)解是(合作,合作),但由于美國數(shù)次背叛,態(tài)度多變,導(dǎo)致中國在博弈中慢慢走向?qū)挂环剑罱K演變?yōu)椋▽梗瑢梗措p方都選擇不合作,這使雙方利益受損。博弈在反復(fù)進行,面對中國想合作但美國選擇對抗的態(tài)度,只有不斷回擊美國的背叛行為,使美國遭受損失,在后續(xù)的博弈中,美國會改變對中國的策略,從而從背叛走向合作。
征地
政府希望征用土地以促進城市建設(shè),農(nóng)民希望獲得補償以彌補收益減少的損失。理想結(jié)果是:農(nóng)民接受政府設(shè)置的補償款,雙方都能獲益;現(xiàn)實情況是:部分農(nóng)民漫天要價或采取激進措施反對征地,政府只能強征或重新談判,這導(dǎo)致雙方利益受損。一方的選擇原本是希望給自己帶來更大的收益,結(jié)果反而使收益變少。
商業(yè)
價格戰(zhàn)
商業(yè)競爭者彼此降價以搶占市場份額,最終帶來整個行業(yè)利潤下降。假設(shè)商家1價格不變,商家2降價,則消費者會被商家2吸引,使商家2獲得更多利潤;假如商家1降價,商家2更會降價,否則商家1會搶占商家2的客源。因為不知道對方會不會降價,總有人會選擇降價來吸引客源,最終的結(jié)果是每個商家都選擇降價,陷入低價惡性競爭怪圈。以快遞行業(yè)為例,以價換量的價格混戰(zhàn)導(dǎo)致行業(yè)發(fā)展陷入困境。
廣告
A、B是兩家公司,他們會理性選擇廣告策略,會有四種情況:A做廣告,B做廣告;A做廣告,B不做廣告;A不做廣告,B做廣告;A不做廣告,B不做廣告。如果A不做廣告,B不做廣告,兩家公司都會有收益,且收益相當(dāng);如果A做廣告,B不做廣告,那么A獲利高且B獲利減少,反過來也一樣;然后B也跟風(fēng)做廣告,最后兩家公司的收益都會降低,因為廣告費用支出過高。這里的最優(yōu)解是兩家公司都不做廣告,反而能提高市場整體收益。
領(lǐng)導(dǎo)決策
領(lǐng)導(dǎo)決策落實過程中有兩個決策執(zhí)行者下級A和下級 B,有四種可能性:下級A執(zhí)行,下級B執(zhí)行;下級A執(zhí)行,下級B不執(zhí)行;下級不A執(zhí)行,下級B執(zhí)行;下級A不執(zhí)行,下級B不執(zhí)行。對A而言,無論B是否執(zhí)行,最優(yōu)解都是執(zhí)行,只有這樣才能獲得領(lǐng)導(dǎo)賞識,對B來說也是如此,因此最優(yōu)解是AB都執(zhí)行,但若把AB視為整體,執(zhí)行領(lǐng)導(dǎo)決策有可能受到賞識,也有可能受到批評,犯錯的可能性更高。對集體來說,都不執(zhí)行會使受批評的可能性降到最低。但在現(xiàn)實生活中,為了職位晉升,A與B把對方視為競爭對手,互不信任,在不通知對方的情況下選擇執(zhí)行決策,盡管存在多做多錯的風(fēng)險,領(lǐng)導(dǎo)仍可以利用“囚徒困境”使其決策得到落實。
司法
訴訟
作為公共產(chǎn)品的提 供者,環(huán)境公益訴訟更是一種典型的“集體行動”,破壞環(huán)境行為會對社會產(chǎn)生負外部性,但環(huán)境破壞行為造成的影響平分到個人時,對當(dāng)事人影響很小。有訴訟資格的原告在成本自負、風(fēng)險自擔(dān)、收益共享的前提下,出于個人利益考慮,不會選擇訴訟,而是等著別人提起訴訟,自己坐享其成,但對集體而言,導(dǎo)致的結(jié)果是無人提起訴訟,因為這項活動帶來的私人利益小于社會利益,這就導(dǎo)致出現(xiàn)囚徒困境——盡管訴訟有利于原告人,但所有人選擇不訴訟。
司法執(zhí)行
法院與失信被執(zhí)行人之間是一種“靜態(tài)博弈”,二者之間有四種結(jié)局:被執(zhí)行人履行判決書,法院采取相關(guān)執(zhí)行措施;被執(zhí)行人不履行判決書,法院采取相關(guān)執(zhí)行措施;被執(zhí)行人不履行判決書,法院不采取相關(guān)執(zhí)行措施;被執(zhí)行人履行判決書,法院不采取相關(guān)執(zhí)行措施。與正常的囚徒困境博弈不同,雙方均不合作并未獲得最大利益,反而使損失擴大,這是因為法院采取執(zhí)行措施是一種義務(wù),是“非正常合作”,結(jié)局一雙方利益均受損、結(jié)局二法院受損、結(jié)局三雙方獲利、結(jié)局四被執(zhí)行人受損。
審訊
現(xiàn)實中,偵察機關(guān)在審訊時,能夠依靠“囚徒困境”策略而獲取口供的情形并不多見,因為雙方達不到絕對理性,較為理性的情況下,雙方可能同時選擇不招供,因為這樣可能逃避處罰。囚徒困境中博弈雙方都以獲取個體利益最大化為追求目標(biāo),但中國的“坦白”制度帶來的期待利益與實際損失不成比例,這導(dǎo)致不會陷入選擇困境。現(xiàn)實的法律規(guī)則是:假定犯罪可能被判十年,若兩人都抵賴,由于缺乏證據(jù),二人無罪釋放; 若兩人都坦白,各判八年;如果兩人中一個坦白、一人抵賴,坦白的從輕處罰判六年,抵賴的加重處罰判十年。刑期相差不大,犯罪者更可能選擇抵賴。這種情況下,解決方法有三:一是幫助嫌疑人分析利弊,做出理性選擇,即招供;二是營造信息不對稱,防止串供,讓彼此都選擇對自己更有利的選擇,即招供;三是尋找利益平衡點,即招供,招供對個體來說并非最優(yōu)解,但對集體來說是最有利的。一般來說,某些罪輕的共同犯罪案件,更容易通過“囚徒困境”策略找到突破口。
社會
見義勇為困境
一老太太于公交站臺摔倒,路人將其扶起反遭訛詐,法院判決賠償,偏離了社會主流價值,打擊了公眾的傳統(tǒng)道德觀念。
這一模型中,雙方見危不救是最差解,反而成為常態(tài)。集體利益化的最優(yōu)策略是雙方都見義勇為,因為熱心人的帶頭作用引領(lǐng)了社會風(fēng)氣,但從個人理性出發(fā),最終選擇都是見危不救,最后全社會都更加傾向見危不救。
理論發(fā)展
基于經(jīng)典囚徒困境博弈,學(xué)者發(fā)展出新的模型,分別為重復(fù)囚徒困境博弈、空間囚徒困境博弈、非對稱囚徒困境博弈。重復(fù)囚徒困境博弈指在兩個博弈者之間博弈重復(fù)發(fā)生。Simon指出,在有限理性下,博弈者追求“滿意”而不是“最優(yōu)”,在博弈過程中,通過向收益較高的博弈者所采用的策略進行學(xué)習(xí)來選擇自己的策略。Nowark和May率先提出了空間互惠理論,指出個體之間的空間結(jié)構(gòu)可以促進合作,相關(guān)學(xué)者基于規(guī)則網(wǎng)格的研究肯定了這一結(jié)論。非對稱博弈指當(dāng)博弈模型具有混合策略納什均衡時,通過懲罰或獎勵博弈方,可以改變非對稱性程度,進而改變合作的產(chǎn)生。
重復(fù)囚徒困境博弈模型
重復(fù)囚徒困境博弈模型(Iterated Prisoner’s Dilemma,IPD)兩個博弈者之間重復(fù)發(fā)生囚徒困境博弈,在重復(fù)博弈中,博弈者可能為了長期利益而放棄眼前的利益,長期的、重復(fù)的博弈過程體現(xiàn)博弈者間合作與非合作的互動過程,在博弈中,群體將依序重復(fù)博弈、調(diào)整風(fēng)險態(tài)度、調(diào)整策略及進行群體淘汰更新,是一種動態(tài)博弈。有限次重復(fù)博弈與一次性博弈一樣,帶來集體非理性,無限次博弈則促進雙方合作。具體表現(xiàn)在:個體本身風(fēng)險態(tài)度與策略調(diào)整——選擇隨機個體進行博弈——基于收益變化調(diào)整風(fēng)險態(tài)度——基于效用調(diào)整博弈策略——基于收益增長率進行群體淘汰與更新——再次選取隨機個體進行博弈······重復(fù)數(shù)次,直至達到最終目標(biāo)。借鑒了美國20世紀(jì)80年代計算機博弈競賽中三種經(jīng)典策略之一:針鋒相對策略:先選擇合作,之后在每一輪博弈中模仿對手上一輪決策,靈活多變,形成互利共贏的局勢。另外兩種策略是始終合作策略、始終背叛策略。
第一次博弈后,只存在唯一的納什均衡解,(坦白,坦白),如果兩個人都選擇坦白,沒有選擇其他戰(zhàn)略,也就不會打破這種平衡,出于自身利益考量,此時(坦白,坦白)結(jié)局會一直持續(xù)下去,在以后的某次博弈里,囚徒A 選擇沉默,囚徒B選擇坦白,此時B獲益,(沉默,坦白),但博弈仍在持續(xù),下一次結(jié)果是A選擇坦白,B選擇沉默,此時A獲益,(坦白,沉默),A與B不斷轉(zhuǎn)換的結(jié)果是雙方最后均選擇沉默,由(坦白,坦白)的納什均衡解變?yōu)椋ǔ聊聊┑?a href="/hebeideji/5947271326089464728.html">維爾弗雷多·帕累托最優(yōu)解。
模型演化為:
此時最優(yōu)解是(合作,合作),但出于自身利益考量,AB兩人中會有人選擇背叛,當(dāng)B第一次背叛,A第一次合作,此時B獲利,第二次B選擇背叛,A也選擇背叛,此時二人皆輸,由于是不確定的重復(fù)博弈,n次后局面還是雙輸,第n+1次時,A 選擇合作,B選擇背叛,B獲利,n+2次時,A選擇合作,為了結(jié)束博弈,B也選擇合作,博弈結(jié)束。
空間囚徒困境博弈模型
個體按照一定的空間結(jié)構(gòu)分布在系統(tǒng)中,只能夠與距離自己較近的個體進行交互。在現(xiàn)實的社會交往中,群體生活空間具有結(jié)構(gòu)特,所有個體都處在某種社會關(guān)系網(wǎng)絡(luò)當(dāng)中,囚徒困境博弈假設(shè)系統(tǒng)中的個體要與其他個體都進行博弈或者是隨機選擇對象,但現(xiàn)實中不是每一個個體都與系統(tǒng)中的其他個體存在交互關(guān)系。通過研究規(guī)則的二維方格網(wǎng)絡(luò)、不規(guī)則的小世界網(wǎng)絡(luò),無標(biāo)度網(wǎng)絡(luò)結(jié)構(gòu)的合作演進發(fā)現(xiàn),個體之間的空間結(jié)構(gòu)可以促進合作。在空間結(jié)構(gòu)下,滅生過程、模仿過程的更新規(guī)則更能促進合作生成。
非對稱囚徒困境博弈模型
非對稱性對博弈合作的產(chǎn)生有一定影響,博弈雙方中實力更強的一方采取策略的頻率更高,通過懲罰不合作的博弈方會改變雙方的實力對比程度,從而改變合作的產(chǎn)生。在此基礎(chǔ)上出現(xiàn)了帶有懲罰機制的非對稱重復(fù)囚徒困境博弈模型、角色非對稱囚徒困境博弈模型,在帶有懲罰機制的模型中,懲罰與貼現(xiàn)因子對合作的產(chǎn)生起促進作用。當(dāng)系統(tǒng)具有小的懲罰時,貼現(xiàn)越大,演化過程越快靠近(合作, 合作)。當(dāng)系統(tǒng)具有小的貼現(xiàn)因子時,懲罰越大,演化過程也越快靠近(合作,合作);角色非對稱模型中,博弈雙方中任一方選擇背叛都是群體的最優(yōu)選擇,消費者與廠商博弈模型就是一種非對稱囚徒困境。
這一模型有別于傳統(tǒng)囚徒困境博弈模型,因為博弈一方的消費者受到的損失更大,二者角色存在非對稱性,雙方最佳組合是(消費者購買,廠商提供高質(zhì)量商品),這一過程下,消費者一旦開始購買高質(zhì)量商品,廠商為了留住顧客,會一直生產(chǎn)高質(zhì)量商品;一旦消費者購買了低質(zhì)量商品,廠商也會持續(xù)生產(chǎn),因為能夠從中獲益,而一旦消費者選擇不購買,無論廠商提供高質(zhì)量還是低質(zhì)量商品,雙方都不會獲益,因而運用懲罰機制,迫使廠商生產(chǎn)高質(zhì)量商品,不斷吸引消費者購買高質(zhì)量商品,使雙方不斷靠近最優(yōu)組合。
理論延伸
雪堆博弈模型
雪堆博弈,又稱鷹鴿博弈,是和囚徒困境一樣的兩人博弈模型,大概內(nèi)容為:甲乙兩人開車并行在公路上,因突降大雪,路上的積雪阻斷了道路,需付出一定的體力與時間才能清除,在此前提下,有三種情況:一是兩人共同清理積雪,都需要付出體力與時間,所得收益是相同的,即能夠離開;二是一人下車清理,另一人坐享其成,這種情況下,不下車的一方能獲得更大的收益,導(dǎo)致兩個人都不愿意下車;第三種就是兩人都不下車,什么也得不到而且回不去了。這種情況下,個體選擇與對方不同的策略才能收益最大化,前提是吃虧的一方愿意承擔(dān)損失,否則會導(dǎo)致雙方都沒有收益。個體在雪堆博弈中的策略是根據(jù)對手決策產(chǎn)生的。一方?jīng)Q策為合作時,另一方的最優(yōu)策略是背叛;反之,一方?jīng)Q策為背叛時,另一方的最優(yōu)策略是合作。
公共品博弈模型
是一種多人囚徒困境數(shù)學(xué)模型,于1973 年由Hamburger 正式提出,具體情形為:多人參與某項公共物品的投資,個人可選擇投資或者不投資,由于其公共屬性,最終每個參與到該項目的人,無論是否投資,都可以獲得均等的收益,但很明顯,在這一過程中,沒有投資的人沒有承擔(dān)風(fēng)險卻仍能獲得收益,對參與投資的人來說,其個人利益是受到損失的,于是出現(xiàn)更多的人選擇不投資,最終的結(jié)果是所有人都不愿意投資,公共產(chǎn)品也就無法生產(chǎn),每個人都無法分配到公共資源,只有每個人都是參與者,才能實現(xiàn)利益最大化。
理論影響
博弈論研究學(xué)者提出各種假設(shè),研究人的行為動機,不斷補充、完善博弈論體系,成果斐然。從合作與非合作行為動機角度來說,選擇非合作行為的動機,學(xué)者Dawes認(rèn)為有的參與者擔(dān)心只有自己單方面選擇合作,只能得到博弈的最低收益;選擇合作的動機,有的學(xué)者如Bacharach認(rèn)為原因是人存在集體理性,追求利益最大化而不是個人利益,學(xué)者Andreoni 認(rèn)為是利他主義和聲譽促進合作動機。互惠共贏理論的本質(zhì)還是追求利益最大化。
基于囚徒困境博弈,Selten,Stoecker 研究了只要對面博弈方有合作的愿意且對對方的決策有樂觀的期待,從而改變自己的策略,在部分競爭中取得成功;Liberman等學(xué)者研究了聲譽和虛擬名字對博弈方選擇合作的影響;Cox et al研究證實了文化差異對合作或非合作行為有很大的影響。Boone 和 Witteloostuijn探討 具有行為博弈或經(jīng)濟博弈知識的參與者更有可能選擇合作行為。Sabater-Grande 和 Georgantzis探討了風(fēng)險偏好類型的影響,指出風(fēng)險厭惡者傾向于選擇背叛。孟祖暉認(rèn)為 參與者對人的信任也會影響其行為決策。馬本江,邱菀華研究如何擺脫囚徒困境博弈,結(jié)論是博弈雙方在理性條件下增加博弈的約束規(guī)則。
基于空間博弈模型,Perc 研究了空間囚徒困境博弈模型中隨機收益變化可以促進合作的產(chǎn)生;Nowark和May將空間網(wǎng)絡(luò)結(jié)構(gòu)與囚徒困境博弈模型相結(jié)合,指出個體之間的空間結(jié)構(gòu)可以促進合作,發(fā)現(xiàn)對最優(yōu)者的模仿策略可以促進合作的形成,提高整體的合作水平。
基于非對稱博弈模型,Newman-Watts 研究了帶有非對稱收益分配機制的囚徒困境博弈模型,在某些情況下,窮人會被富人剝削,富人更富,在某些情況下, 窮人會受到富人的救濟,財富會重新分配。
參考資料 >