納什均衡(Nash equilibrium),又稱非合作博弈均衡,其是一種策略組合,使得每個參與人的策略是對其他參與人策略的最優反應,即假設有n個局中人參與博弈,某情況下無一參與者可以獨自行動而增加收益(即為了自身利益的最大化,沒有任何單獨的一方愿意改變其策略)。其實質是一種非合作博弈狀態。
對具有博弈性質的問題的研究可以追溯到19世紀甚至更早,1838年,古諾發現簡單雙寡頭壟斷博弈模型。20世紀初,塞梅魯、 鮑羅和開始研究博弈的準確的數學表達。但的博弈論過于抽象,使應用范圍受到很大限制,在很長時間里,人們對博弈論的研究知之甚少。1950年約翰·納什(約翰·納什)發表了“非合作博弈”的長篇博士論文,他證明了非合作博弈及其均衡解,以及均衡解的存在性。納什均衡具有存在性定理,其證明可以使用布勞威爾環形山不動點定理。它還具有一致預測性、策略穩定性、多重性的特性。
納什均衡是在經濟學中應用最多的唯一博弈理論解概念。經濟學應用包括寡頭壟斷、進和出、市場均衡、搜索、區位、談判、產品質量、拍賣、保險、業主—代理人問題、高等教育、差別待遇、公共財貨等等。此外,在政治方面,它用于武器控制和檢查,在計算機科學中,納什均衡可以幫助設計和分析無線通信網絡系統。
定義
納什均衡
在多人參加的博弈中,每個人根據他人的策略制定自己的最優策略。所有人的這些策略組成一個策略組合,在這個策略組合中,沒有人會主動改變自己的策略,那樣會降低他的收益。只要沒有人做出策略調整,任何一個理性的參與者都不會主動改變自己的策略。這個時候,所有參與者的策略便達成了一種平衡,這種平衡便是“納什均衡”。
博弈論是應用數學的分支,因此最嚴謹的“納什均衡”的表達方式需要用數學公式,即在博弈中,如果在由每個博弈方的一個策略所組成的策略組合中,任意博弈方的策略,都是應對其余博弈方策略的組合的最佳策略,即對任意都成立,則稱為的一個納什均衡。
嚴格納什均衡
策略式表述博弈的(純策略)納什均衡是上的一個策略組合,滿足對任意的,表達式
,對于所有的
若上述式中的關系是嚴格不等式,只要,嚴格不等式恒成立,則稱策略組合為嚴格納什均衡,也叫強納什均衡,即任何局中人從納什均衡中偏離出去,得益都只能減少而不會增加,必然會蒙受損失。
弱納什均衡
弱納什均衡也叫普通納什均衡,其含義是任何局中人從納什均衡中偏離出去都不會得到額外的好處,但不會得到任何好處并不意味著一定會得到壞處。
相關概念
概率密度函數
概率分布
離散隨機變量的概率分布,設為取值為的離散隨機變量,則函數
稱為的概率分布或概率分布函數,其中為離散隨機變量取值的概率。
概率密度函數
設為連續隨機變量,且滿足下列條件:
則稱為的概率密度函數,其中表示位于區間之中的概率。
期望
給定一個取值于集合的離散隨機變量,它的概率分布為,其期望值的定義為:
簡史
博弈思想歷史久遠。1500年前巴比倫猶太教法典中的“婚姻合同問題”,就反映了古代人們對具有策略依存特點問題的決策智慧。但真正意義上嘗試用數學方法尋找博弈最優策略問題的是英國人詹姆斯·瓦 德格拉(James?Waldegrave),他在1713年研究一種“le?Her”的兩人卡牌游戲時提出最小最大化原理。但是,當時并沒有得到人們的多少關注。如果按照現代經濟學和博弈論經常引用的最早包含典型博弈思想的文獻應該是1838年古諾(Cournot) ?寡頭產量競爭模型,其是寡頭壟斷市場的一個極端情形(市場上的一種產品只有兩個賣者)。古諾模型屬于生產廠商之間不存在任何正式的或非正式的勾結的一個模型,其所考慮的是競爭者的相互依存這個因素,即任何一個廠商單獨提高或降低產量都只會減少利潤而不會增加利潤,這時產生廠商間的穩定的產量組合被稱為博弈的均衡產量,這個均衡產量被稱為“古諾均衡”。
1883年,貝特蘭德(Bertrand) ?寡頭價格競爭模型與古諾模型相似。對博弈問題的系統研究是從20世紀開始的。1913年,德國人恩斯特·策梅洛(Ernst?Zer- ?melo)對國際象棋博弈的研究,提出“逆向歸納法”(backward induction procedure),是博弈論中最早的具有一般意義的分析方法。1921~1927年,法國人埃米爾·博雷爾(Emile?Borel)證明了在某些特殊情況下雙方零和博弈中存在最佳策略。1928年,約翰·馮·諾依曼(Von?Neumann)證明有限策略雙方零和游戲有確定結果以及最小最大化原理等。但是,在當時的社會經濟條件下,這些個案研究只能算博弈論的萌芽階段,還沒有形成系統的理論體系。
博弈論的第一個研究高潮,出現在20世紀40年代末50年代初。由于馮·諾依曼和奧斯卡·摩根斯特恩的奠基著作影響,在第二次世界大戰期間,博弈論在軍事領域得到廣泛應用。1950年,約翰·納什(John???Nash)提出“納什均衡”的概念并證明納什定理,使它發展成為非合作博弈的基礎理論。納什的《n人博弈中的均衡點》證明了非合作多人博弈中存在均衡,并給出了這種均衡的解法。如果找出兩條線的交點很容易,但是找到幾條線的交點則非常困難。納什提出了解決找到多方之間的均衡點這個難題的辦法,并將博弈從雙方零和擴大到多方非零和的廣義情形,證明了非合作多方博弈中有均衡,并給出了該均衡的解法。
分類及案例
純戰略納什均衡
定義
純戰略納什均衡,是由所有參與人最優的純戰略構成的戰略組合。純戰略是指一個戰略規定參與人在每一個給定的信息情況下只選擇一種特定的行動,即純戰略是確定性戰略,它要求參與人以百分之百的概率選擇某種行動或者不選擇某種行動。例如,在囚徒困境中那樣,要么招供,要么抵賴,不存在中間的選擇。
案例分析
囚徒困境案例:兩個犯罪嫌疑人(A和B)共同作案后被警察抓住,分別隔離審訊。警察告訴他們:如果兩人都坦白,各判刑8年;如果兩人都抵賴,則警方因證據不足不能判兩人的偷竊罪,但可以私入民宅的罪名將兩人各判入獄1年;如果其中一人坦白,另一人抵賴,坦白者釋放,抵賴者判刑10年。這樣,兩個囚徒都有兩個策略選擇—坦白或抵賴,但兩人是在不知道對方作何選擇的情況下作出自己的選擇的。
解:采用劃線法(通過在每個博弈方對其他博弈方每個策略或策略組合的最佳對策對應的得益下劃線,分析博弈的方法稱為“劃線法”)求納什均衡,可以在囚徒A針對囚徒B坦白、不坦白兩種策略的最佳對策(都是坦白)分別給囚徒A帶來的得益一5和0下劃短線,同樣在囚徒B針對囚徒A坦白、不坦白兩種策略的最佳對策(也都是坦白)給囚徒B帶來的得益—5?和0下劃短線,如下圖所示:
根據得益矩陣的4個得益數組中,只有策略組合(坦白,坦白)對應的得益數組(-5,-5)的兩數字下都劃有短線,其他3個策略組合的得益數組中最多只有一個數字下有短線,意味著只有(坦白,坦白)滿足“雙方的策略互相是對對方策略的最佳對策”,而且是唯一具有這種性質的策略組合。因此,(坦白,坦白)是該博弈唯一具有穩定性的策略組合,基本上就是該博弈的結果。這一結果體現了納什均衡對亞當·斯密的“看不見的手”原理提出的挑戰,即該原理的悖論:兩個囚徒從利己目的出發選擇坦白,最終卻導致兩人各判刑8年(既損人又不利己),這與斯密理論中“每一個人都從利己的目的出發,而最終全社會達到利他的效果”形成矛盾。
混合策略的納什均衡
定義
混合戰略納什均衡,是由所有參與人最優的混合戰略構成的戰略組合。混合戰略是指一個戰略規定參與人在給定信息情況下以某種概率分布隨機地選擇不同的行動,即混合戰略是參與人以某一概率選擇某種行動,同時,還存在著選擇其他行動的可能性,因而,混合戰略帶有更大的不確定性。
注:如果參與人選擇純策略的話,實際上可以看成是選擇了,其他為0的混合策略,所以純策略可以認為是混合策略的一個特例。用表示參與人選擇的混合策略,那么表示所有參與人的混合策略組合。
則稱為此博弈的混合策略納什均衡。
案例分析
某政府準備救濟一些流浪漢,改善社會福利,但前提是流浪漢必須試圖尋找工作結束游蕩狀態,否則政府就不會救濟。而流浪漢可以選擇繼續游蕩或者尋找工作,雙方的支付如下:
從這個支付表里可以看出,當政府選擇救濟時,流浪漢的最佳策略是繼續游蕩;而政府選擇不救濟時,流浪漢才會去尋找工作。可見,這個博弈沒有純策略納什均衡。從混合策略納什均衡角度分析,假定政府以概率選擇救濟,概率選擇不救濟,即;流浪漢以概率選擇尋找工作,概率選擇繼續游蕩,即那么,政府的期望支付為:
為了最大化此期望支付,對上式對求導后我們得到,亦即。即在混合策略納什均衡里,流浪漢以0.2的概率選擇尋找工作,0.8的概率選擇繼續游蕩。
存在性定理
定理1
定理1:任意有限策略型博弈至少存在一個混合策略納什均衡。
由于這是博弈論最基本的存在性定理,在給出它的具體證明時,其中需要用到角谷不動點定理(該定理源自布勞爾(Brouwer)的不動點定理,該定理說明,緊凸集到自身的連續映射必然存在不動點)。
證明:由于對對手一種策略的最優反應可能不只一種,所以進行分析時需要采用點到集合的變換,數學術語為對應。首先引入反應對應的概念,局中人的反應對應為將每一個策略組合映射為其對手采用時最大化其支付的混合策略的集合,其中盡管僅依賴于,但為了應用不動點定理,將其表述為所有局中人策略的函數。定義對應為的勒內·笛卡爾積,這樣就形成了從點到集合自身子集的對應,這正是應用不動點定理的要求。的不動點為滿足的,即對每一個局中人,,也就是說每個局中人的策略都是對對手策略的最優反應,因此,的不動點即為納什均衡。
根據角谷不動點定理,以下是具有不動點的充分條件(并非必要條件):
(1)為歐氏空間的非空、凸的、緊子集。
(2)對任意非空。
(3)對任意是凸的。
(4)具有閉圖,即如果對序列,有,則,這一性質也被稱為上半連續性。
現在只需要證明滿足以上條件即可。
對于條件(1),因為每一個是純策略空間上概率分布形成的集合,因此它是一個非空的有界閉集,從而也是緊集。
對于條件(2),局中人的期望效用是自身概率的線性函數,而緊集上的連續函數一定能取得最大值,所以非空,從而非空。
對于條件(3),期望效用函數的線性意味著,對任意的,有,對任意都成立。即如果與為對的最佳反應,那么它們的加權平均也是對的最佳反應。這就證明了的凸性。
最后,用反證法證明滿足條件(4),假設并非上半連續,那么存在序列滿足,且,但是。這意味著,對于某些局中人有,從而,存在與,使得。由于連續及,所以當足夠大時有:
因此,作為對的反應,嚴格優于,這與假設的相矛盾。這樣條件(4)的滿足得到證明。
以上定理說明了有限博弈中納什均衡的存在性,而對于局中人具有無限多種純策略的無限博弈來說,納什均衡的存在性則由以下定理保證。
定理2
定理2:在人策略型博弈中,如果每個局中人的純策略空間是歐氏空間上的非空有界閉凸集,支付函數連續且對是擬凹的,那么這一博弈中存在一個純策略納什均衡。
定理2的證明與定理1的證明相仿。這一定理給出存在純策略納什均衡的充分條件(并非必要條件),其中的擬凹性是相當嚴格的條件,當這一條件不滿足時,混合策略的引入可以保證均衡的存在性。
定理3
定理3:在n人策略型博弈中,如果每個局中人的純策略空間是歐氏空間上的非空有界閉凸集,支付函數連續,那么這一博弈中存在一個混合策略納什均衡。
特點
具有一致預測性
在納什均衡中,假定參與方都是完全理性的,雙方的策略組合都可以被完全預估的,即對博弈的參與人所預測的特定均衡都會出現(有時也將“預測的結果”稱為信念),對方的策略選擇發生變化,博弈參與人總是會選擇有利于自己的最優策略,即其做出的策略選擇一定與其預測的行為一致,或者說至少不會偏離所預測的納什均衡。其中納什均衡的一致預測性不是指博弈參與人的策略組合完全一致,而是指參與人的預測和行動一致,即參與人預測到某一個特定情況會發生,那就不會做出與他所預測的結果不一致的選擇。
當參與人對其他博弈參與者的策略選擇都是最佳策略或對策時,形成的均衡即為納什均衡,若出現參與雙方的預測結果不一致這一結果,即由一方在做出預測時,出現了“犯錯誤的行為”,這可能是因為對預測結果的錯誤理解,或者是對情境的錯誤認識,或者對情境內的公共知識沒有達成普遍的共識,再者也可能是因為參與者中的不完全理性或計算能力有限,博弈結果就可能會出現沒有均衡的情況。而這恰恰從反面證明,假設公共知識充足,人又是理性的,即能夠充分地理解和運用現有的信息,做出預測和行動一致的話,不可能預測任何非納什均衡是博弈的結果,即在假定前提的滿足下會出現納什均衡結果。
具有策略穩定性
納什均衡具有策略穩定性,即在納什均衡狀態下,給定對手選擇納什均衡策略,參與人沒有積極性選擇其他策略,即在納什均衡狀態下沒有任何人有積極性打破這種均衡情況,一旦前提假設確定,納什均衡就會形成策略穩定性,沒有人愿意單方面改變自己的行為。
納什均衡具有策略穩定性并不意味著該均衡本身也是穩定的。策略穩定性是指只有對手選擇該策略(組合),參與人不會背離納什均衡策略,均衡的穩定性則是指受到外界干擾的情況下事物能夠自動回到均衡狀態。
具有多重性
多重性及案列
納什均衡具有多重性:在博弈的過程中,不一定只存在一個納什均衡,有可能同時存在多個納什均衡。在博弈中,究竟選擇哪個納什均衡作為該博弈的解,會由于環境的變化或者參與人的偏好不同而發生改變,但是在充足的信息符合假定下總能找到至少一個納什均衡的解符合該條件。
例如獵鹿模型:兩個人出去打獵,獵物為鹿和兔子。如果兩個人獨自去打兔子, 一天下來可以打到2只兔子,如果選擇去打鹿,這個時候就需要兩個人共同合作才能成功打到鹿。?一只鹿的價值相當于8只兔子,兩個人平分以后相當于每個人打到了4只兔子。如果一個人選擇打兔子,另一個人選擇去打鹿,那么打鹿的人會一無所獲,而選擇打兔的人仍然能得到2只兔子。獵鹿博弈的四種結果如下:
在獵鹿博弈中首先有兩個純策略的納什均衡,要么一起去打鹿,要么分頭去打兔子。?一個去打鹿,?一個去打兔子肯定不是納什均衡。如果出現這種情況,其中的某一方會選擇與對方相同的行為:要么選擇打兔子的一方跟著對方去打鹿,要么選擇打鹿的一方轉而選擇去打兔子。
獵鹿博弈中除了兩個純策略納什均衡以外,還有一個混合策略納什均衡。其雙方各以50%的概率打鹿或打兔子是一個混合策略納什均衡解,每個獵人的期望收益均為2只兔子。
對于獵鹿博弈,兩個獵人合伙打鹿一定是最優結果。但一方選擇去打鹿的前提是他能夠預期到對方會選擇打鹿,而對方選擇去打鹿的前提也是預期到另一方會去打鹿。即只有“雙方都去打鹿”成為一個共同知識的前提下,最優結果才會如期出現。同時對于每個獵人來說,選擇去打兔子的收益是2只兔子,?而選擇去打鹿的收益要么是4只兔子要么是0。這意味著一旦選擇去打鹿,就會冒著空手而歸的風險。在混合策略納什均衡的情況下,對方選擇打鹿的概率是50%,因此選擇去打鹿的期望收益也只有2只兔子。那么,對于任何一方來說,出于規避風險的考慮(在一般情況下,人總是厭惡風險的),還不如獨自去打兔子。問題就在于,當雙方都意識到這一點后, 一起去打鹿反而變得不太可能了。
為了讓雙方都有一個更好的結果,提前溝通就變得很重要。如果雙方提前約定好一起去獵鹿,那么都選擇獵鹿就是?一個納什均衡結果。此時,沒有人愿意偏離這個結果而選擇去打兔?子。反之,出于規避風險的考慮,分頭去打兔子反而是一個更能預期到的納什均衡結果。但是溝通是有成本的,在這個例子中,如果溝通成本小于4只兔子,提前溝通能夠提高雙方總的收益水平,反之還不如分頭去打兔子。
帕累托優勢策略
維爾弗雷多·帕累托優勢(或稱帕累托效率)是以意大利經濟學家帕累托的名字來命名的。帕累托效率是博弈論中的定理之一,它有一個準則,即帕累托效率準則:經濟的效率體現于配置社會資源以改善人們的境況,主要看資源是否已經被充分利用。如果資源已經被充分利用,要想再改善其中任何一人,都必須損害其他人,這時候經濟就實現了帕累托效率。
例如:有A、B兩個人,這兩個人分別做同樣工作時收益分別為4,若兩人合作,每人收益都為10(假設平均分配)。很顯然,這兩人合作所得利益要大于兩人單獨行動所得,就稱兩人合作所得(10,10)相對兩人單獨行動所得(4,4)具有維爾弗雷多·帕累托優勢。(10,10)是一個理想狀態下的結果,在實際生活中由于種種原因(資源、地理、能力、運氣等)兩人合作所得并不一定是平均分配,有可能出現(14,6)或者(15,5)等情況。然而,不管怎樣分配,只要合作雙方的所得收益都大于兩人單獨行動所得收益4,兩人就有合作下去的動機。所以4就是兩人合作,也就是帕累托效率的臨界點。人們稱(16,4)這個狀態為帕累托效率,一旦有一方的收益低于4,雖然兩人合作的總和(10+10)仍然大于兩人單獨行動的總和(4+4),但雙方合作卻是以損害一方利益作為代價的,所以合作也就無法進行下去。由此可以得出一個結論:帕累托效率不在于總量增加多少,關鍵在于每一個人都從中得到改善。
在多重納什均衡博弈中,并不是所有的多重納什均衡博弈都是難以選擇的。雖然有些博弈中存在多個納什均衡,但這些納什均衡存在明顯的優劣差異,所有博弈方對其中的某一個納什均衡有著共同的偏好。如果某個納什均衡給所有博弈方帶來的利益,都大于其他所有納什均衡會帶來的利益,這時候博弈方的選擇傾向性就會完全相同,各個博弈方不僅自己會選擇該納什均衡策略,而且預測其他博弈方也會選擇該納什均衡策略,共同追求經濟學中的帕累托效率最優,因此稱此納什均衡為帕累托上策均衡。
應用
經濟學領域
納什均衡是在經濟學中應用最多的唯一博弈理論解概念。經濟學應用包括寡頭壟斷、進和出、市場均衡、搜索、區位、談判、產品質量、拍賣、保險、業主—代理人問題、高等教育、差別待遇、公共財貨等等。
納什均衡在經濟學應用中的一個典型案例—古諾寡頭競爭模型。在古諾模型中,有兩個參與人,分別稱為企業1和企業2;每個企業的戰略是選擇產量;支付是利潤,它是兩個企業產量的函數。
用代表第個企業的產量,代表成本函數,是價格,市場的需求,代表需求函數(原需求函數是)。則第個企業的利潤函數為:
其中表示的是逆需求函數和之間不是相乘的關系,是函數與自變量的關系,下同。
納什均衡記作,則有
找出納什均衡的一個辦法就是對每個企業的利潤函數求一階導數并令其等于零。例如,假設逆需求函數為,總產量,成本則利潤數為
求出古諾模型的函數,其過程如下:
令,,得反應函數
古諾模型也可以使用重復剔除嚴格劣戰略的方法找出均衡解,盡管這個模型并不存在占優戰略均衡。這一點可以從反應函數曲線看出,根據反應函數,?一個企業的最優戰略依賴于另一個企業的產量。古諾模型反應函數圖如下:
政治領域
納什均衡在政治方面的應用包括武器控制和檢查,以及大多數國際政治模型等。如兩國的裁軍和軍備問題是一個博弈。每個國家都希望擁有比另一國家強大的軍隊,如果參與的雙方都能裁軍,不僅大家都安全,還可以減少大批軍費開支,對雙方都極為有利。問題是,如果一方主動裁軍,而另一方不裁軍。裁軍的一方就處于弱勢并受到威脅,結果,納什均衡是:雙方都擴大軍備,大量增加軍費預算。
計算機科學
納什均衡可以在計算機科學中可以被用于設計和分析無線通信網絡系統,無線通信網絡中有較多的參與人,如個人用戶(普通PC網絡用戶和手機接入用戶)和網絡服務提供商(ISP) ,收益函數比如延時,功耗和價格等,用戶之間存在合作和競爭關系,在博弈中大家的利益趨于最大化。 在無線通信網絡中研究的一個熱點是異構無線網絡HWNS,其主要關注無線網絡中多種異構的接入終端和多種異構的服務提供者之間的資源分配問題。將博弈論應用到異構無線網,可以有效解決HWNS中包括網絡選擇、接納控制和負載均衡,帶寬和功率控制等問題。
日常生活
現實生活中存在很多“納什均衡”問題,如夫妻春節該回誰家過年。春節是中國的傳統佳節,除夕晚上一家人團聚在一起,其樂融融。但是隨著獨生子女都開始工作和結婚,問題便顯現了出來,那就是春節該回誰家過年。每當到了年底,這個問題便會被人提出來熱議,甚至有的小夫妻還為此起了爭執。
比如劉騰遠和小臺是一對年輕的夫妻,“春節回誰家過年”這個問題也是他們逃不過的一個選擇。他們都是獨生子女,劉冬家在山東省,而小臺家在廣西壯族自治區。劉冬希望春節能回山東過年,而小臺則希望回廣西陪父母一起過春節。以前還沒有結婚的時候都是各回各家,但是現在已經結婚了再分開兩人還都有些不舍。劉冬想讓家里的親朋好友見一下自己的媳婦,而小臺則想,劉冬從來沒有去過她家,也應該認認門了。就這樣,兩人間展開了一場博弈。
假設,小臺陪劉冬回山東過年,小臺的滿意度為5,劉冬的滿意度為10;如果劉冬陪小臺回廣西過年,劉冬的滿意度為5,小臺的滿意度為10;如果兩人各回各家,則每人的滿意度都為5,兩人分別去對方家過年的可能性幾乎不存在,滿意度用X表示。這場博弈的矩陣圖如下:
從中可以看出,如果劉冬選擇回山東省過年,小臺的最優決策是跟隨他一起回山東過年;而如果小臺選擇回廣西壯族自治區過年,劉冬的最優決策是隨她一起去廣西過年。去對方家過年,兩人的滿意度之和為15,而選擇分別回自己家過年,滿意度之和只為10。因此這場博弈中同時出現了兩個“納什均衡”:(0,5)和 (5,10),并且兩個“納什均衡”沒有哪個是具有絕對優勢,總有一方要作出一些犧牲。
影響
納什均衡作為一種重要的經濟學概念,對經濟學以及其他科學的發展產生了深遠影響。
參考資料 >
納什均衡.術語在線.2023-12-16
Nash Jr J F. Equilibrium points in n-person games.sscnet.ucla.edu.2023-12-16