貝葉斯定理(Bayes Theorem),又稱逆概定理和貝葉斯公式,被定義為若構(gòu)成一個完備事件組,并且它們都具有正概率,則對任何一個概率不為0的事件,有,,貝葉斯定理除了該種事件形式外,還有離散分布形式和連續(xù)分布形式。
貝葉斯定理的歷史可以追溯到18世紀,英國數(shù)學家(Thomas Bayes)在一本名為《解決機會主義問題的論文》的書中提出了一種用于推斷未知事件概率的方法,即貝葉斯定理。19世紀中期,英國家阿德爾·貝爾和分別對貝葉斯定理進行了深入的研究和推廣,使其成為統(tǒng)計學和概率論中的基本定理之一。
基于貝葉斯定理的貝葉斯方法可分為單參數(shù)方法與多參數(shù)方法,它可以廣泛地應用于生物學、機器學習、經(jīng)濟學、醫(yī)學更各個領(lǐng)域,是一種重要的數(shù)學工具。
貝葉斯定理
貝葉斯定理的事件形式
若構(gòu)成一個完備事件組,并且他們都具有正概率,則對任何一個概率不為0的事件,有,。
證明
由條件概率公式有,由乘法公式得,再由全概率公式可知,將以上兩個式子代入可得。
例題
8支槍中,有3支未經(jīng)試射校正,5支已經(jīng)試射校正。用校正過的槍射擊時,中靶的概率為0.8,用未校正的槍射擊時,中的概率為0.3,今從8支槍中任取一支射擊中靶,求所用這支槍是校正過的概率。設(shè)事件={射擊中靶},{任取一支槍是校正過的},{任取一支槍是未校正過的},則構(gòu)成完備事件組,則,故所求概率為。
貝葉斯定理的離散分布形式
設(shè)、為隨機變量,其中為離散型的,其分布列為,當時,對的條件密度函數(shù)(若是連續(xù)的)或分布律(若是離散的)為,則給定時對的條件分布律可表示為,,。
貝葉斯定理的連續(xù)分布形式
設(shè)隨機變量、的聯(lián)合密度函數(shù)為,其中,為的邊際密度函數(shù),為當時對的條件密度函數(shù),于是當時對的條件密度函數(shù)可表示為。
歷史沿革
18世紀到19世紀初
貝葉斯定理的歷史可以追溯到18世紀,當時英國數(shù)學家托馬斯·貝葉斯(Thomas Bayes)在一本名為《解決機會主義問題的論文》的書中研究了概率論中的一個問題,即如何根據(jù)已知的信息來推斷未知事件的概率,提出了一種用于推斷未知事件概率的方法。然而,貝葉斯本人并未將這一方法發(fā)表出來,直到他去世后,他的朋友理查德·普萊斯(Richard Price)在1763年發(fā)表了一篇關(guān)于貝葉斯定理的文章,將這一方法公之于眾。這篇文章引起了當時數(shù)學界的關(guān)注,但貝葉斯定理并沒有得到廣泛的應用。
19世紀中期到20世紀初
19世紀中期,托馬斯·貝葉斯定理開始受到更多的關(guān)注和研究。英國統(tǒng)計學家阿德爾·貝耳(Adolphe Quetelet)和皮埃爾-西蒙·拉普拉斯(Pierre-Simon Laplace)分別對貝葉斯定理進行了深入的研究和推廣,使其在統(tǒng)計學和概率論領(lǐng)域得到了更廣泛的應用。拉普拉斯在他的著作《分析哲學》中詳細闡述了貝葉斯定理的原理和應用,并將其命名為“貝葉斯定理”,從此貝葉斯定理正式得到了命名和定義。
20世紀中期至今
20世紀中期以后,隨著計算機技術(shù)的發(fā)展和貝葉斯方法在統(tǒng)計學、機器學習和人工智能領(lǐng)域的應用,貝葉斯定理得到了更加廣泛的關(guān)注和研究。貝葉斯定理被用于解決各種實際問題,如生物學、機器學習、經(jīng)濟學、醫(yī)學等領(lǐng)域。同時,貝葉斯方法也在統(tǒng)計學和概率論領(lǐng)域得到了進一步的發(fā)展和完善,成為了一種重要的推斷方法。
相關(guān)概念
樣本空間
隨機試驗的每一個可能結(jié)果,叫作樣本點,樣本點的全體稱為樣本空間。樣本空間與基本事件組的關(guān)系是對應關(guān)系,記為。例如,檢查4件產(chǎn)品的質(zhì)量,觀察其次品出現(xiàn)的次數(shù)。即基本事件組是由5個基本事件所構(gòu)成,即設(shè)有次品:1件次品;2件次品;3件次品;4件次品;以表示出現(xiàn)件次品,則樣本空間為。
隨機事件
在隨機試驗中,有可能發(fā)生也可能不發(fā)生的結(jié)果,稱其為隨機事件,簡稱為事件,常用大寫字母表示。若表示投擲一枚子出現(xiàn)1點這一事件,人們通常記為=“投擲一枚骰子出現(xiàn)1點”,樣本空間中每一個樣本的稱為基本事件。在每次試驗中,一定會出現(xiàn)的事件稱為必然事件,記為;一定不可能出現(xiàn)的事件稱為不可能事件,記為。例如投擲一枚骰子出現(xiàn)點數(shù)7就為不可能事件,必然事件與不可能事件都具有確定性,它們不是隨機事件。
隨機變量
一維隨機變量
設(shè)是隨機試驗的樣本空間,若對于試驗的每一個可能結(jié)果,都有唯一的實數(shù)與之對應,則得到定義于上的實值單值函數(shù),稱為一維隨機變量,簡記為,隨機變量通常用字母或等表示。
二維隨機變量
設(shè)隨機試驗的樣本空間,對每一個,有確定的兩個實值函數(shù), 與之對應,則稱, 為上的二維隨機變量,簡記為。
完備事件組
設(shè)是一組互不相容事件,且,則稱構(gòu)成一個完備事件組。
條件概率公式
如果是隨機試驗的兩個事件,且,則稱事件發(fā)生的條件下事件的概率為事件發(fā)生條件下事件發(fā)生的條件概率,記為。條件概率可以通過下列公式計算:設(shè),。此外,條件概率公式也可以改為乘法公式,即若,。
全概率公式
若事件為完備事件組,且,則對于任一事件,有,該式稱為全概率公式。
分布律
設(shè)離散型隨機變量的所有可能取值為,取各個可能值的概率為則上式稱為離散型隨機變量的分布律。
分布函數(shù)
給定一個隨機變量,稱定義域的實值函數(shù)為隨機變量的分布函數(shù),有時也記作。
實際意義
貝葉斯定理的實際意義在于已知一個事件由若干個條件引發(fā)的概率是,當事件已經(jīng)發(fā)生后,則是由某個指定的條件(如)引發(fā)的概率是以事件的全概率作分母,條件發(fā)生的概率乘以條件下事件發(fā)生的條件概率作分子的結(jié)果。
貝葉斯方法
單參數(shù)貝葉斯方法
單參數(shù)的貝葉斯方法是一種貝葉斯統(tǒng)計方法,其假設(shè)參數(shù)只有一個未知量。在這種方法中,參數(shù)的先驗分布通常有均勻分布、指數(shù)分布、泊松分布、二項分布等。然后使用貝葉斯定理來更新參數(shù)的后驗分布,從而得到參數(shù)的估計值。例如二項分布下的貝葉斯推斷,設(shè)隨機變量代表次伯努利試驗中的某事件“成功”的次數(shù),參數(shù)代表每次試驗成功(事件發(fā)生)的概率,也可表示總體中具有某種特征的個體所占的比例。由于次伯努利試驗獨立,因此服從二項分布,即。
多參數(shù)貝葉斯方法
多參數(shù)的貝葉斯方法是指在貝葉斯統(tǒng)計學中,對多個未知參數(shù)進行推斷和估計的方法。在這種方法中,考慮多個參數(shù)的聯(lián)合概率分布,并利用貝葉斯定理來計算參數(shù)的后驗分布。假設(shè)參數(shù)(向量)由兩部分組成,其中為“感興趣”的參數(shù),為“討厭”的參數(shù),設(shè)數(shù)據(jù)的分布為,的先驗分布為,則與 聯(lián)合后驗密度函數(shù)為,對聯(lián)合后驗密度函數(shù)中的求積分,得到的邊際后驗密度。
應用領(lǐng)域
生物學
貝葉斯定理在生物學領(lǐng)域具有十分廣泛的應用,例如貝葉斯定理在生物學上可用于分析基因型和表型之間的關(guān)系,幫助確定某種特定基因的遺傳概率、分析生物數(shù)據(jù),幫助確定基因組學和蛋白質(zhì)組學數(shù)據(jù)的相關(guān)性和潛在意義、分析物種的進化歷程和親緣關(guān)系,幫助確定物種之間的演化路徑和親緣關(guān)系等。
機器學習
貝葉斯定理在文本挖掘中也有較為廣泛的應用,例如樸素貝葉斯分類器為一種分類算法,它是一種概率分類器。而樸素貝葉斯分類器則依賴于貝葉斯定理和特征的條件獨立假設(shè)。其運作的過程一般為:給定訓練集,計算輸入/輸出的聯(lián)合概率分布;對于新輸入的實例,利用貝葉斯定理求出后驗概率,使得后驗概率最大的類別作為輸出類別。對于文本分類任務,假設(shè)輸入的文檔,那么它屬于類別的概率為,根據(jù)貝葉斯定理有。
經(jīng)濟學
貝葉斯定理可應用于經(jīng)濟學領(lǐng)域,例如貝葉斯定理可應用于商業(yè)銀行業(yè)務審查中,運用貝葉斯公式的通用形式,可以將貝葉斯公式進行分解,可以用項表示,即,令先驗概率,則有,該方程提供貝葉斯定理遞增計算概率的方法,可以廣泛應用于連續(xù)審查體制中。
醫(yī)學
貝葉斯定理同樣可應用于醫(yī)學領(lǐng)域,在醫(yī)學上,某疾病在檢查結(jié)果之后的患病危險性(后驗概率),可以通過計算該疾病既往發(fā)生的概率(先驗概率)來評估。例如若某顯像方法對某種腫瘤患者的檢查結(jié)果呈陽性者占96%(靈敏度),對無腫瘤者呈陰性占據(jù)98%(特異性),如采用這一顯像方法對某地區(qū)人群進行腫瘤普查,已知該地區(qū)腫患者人數(shù)約占該地區(qū)總?cè)巳簲?shù)的0.2%(流行率),則可根據(jù)貝葉斯定理求得顯像結(jié)果陽性的被檢者確實患有腫瘤的概率,即。
參考資料 >