二項分布(英文:二項式 distribution)是一種離散分布,指在重伯努利試驗中,設事件在每次試驗中出現的概率均為,以記在重伯努利試驗中事件出現的次數,則的可能取值為,其對應的概率為:。當時二項分布就是伯努利分布。
二項分布是瑞士數學家雅各布·伯努利(德語:Jakob Bernoulli)在研究伯努利試驗時發展出來的。二項分布作為詞語最早出現在英國數學家卡爾·皮爾遜(英文:Karl Pearson)的《對進化數學理論的貢獻——II.均質材料中的傾斜變化》一文。
二項分布的有著良好的統計學性質。作為離散分布,二項分布有密度及分布函數表達式,期望,中位數,眾數,方差等數字特征存在。二項分布的極限性質也是其區間估計和大樣本檢驗的基礎。二項分布同時也是托馬斯·貝葉斯統計中的重要分布。二項分布也是伯努利大數定律的基礎。
二項分布應用廣泛。計算機算法中的EM算法便用到了二項分布的性質。二項分布的檢驗和參數估計被廣泛用于網絡安全的檢驗,醫學上藥物的檢驗,生物學中植被分布的檢驗等領域。
定義
只有兩個可能結果的試驗稱為伯努利試驗。記出現事件為成功,出現的反面為失敗,滿足。若試驗重復n次,每次事件出現概率均保持不變,則稱這種試驗為n重伯努利試驗。在重伯努利試驗中,記為事件出現的次數,則的分布列為:,其中。這個分布稱為二項分布,記為。
歷史
二項分布的發展歷史可以追溯到16世紀賭博問題的研究,而真正奠定其理論基礎的數學家包括卡達諾、帕斯卡、費爾馬、詹姆斯·伯努利以及棣莫弗等。瑞士數學家雅各布·伯努利(德語:Jakob Bernoulli)在他的著作《推測術》(德語:Ars Conjectandi)中最早研究了伯努利試驗,這是二項分布產生的源頭。二項分布作為詞語最早出現在英國數學家卡爾·皮爾遜(英文:Karl Pearson)的《對進化數學理論的貢獻——II.均質材料中的傾斜變化》(英文:Contributions to the Mathematical Theory of Evolution---II. Skew Variation in Homogeneous Material)中。原文:“這個結果似乎相當重要,我認為它還沒有被注意到。它給出了任何二項式分布的均方誤差。”(英文:"This result seems of considerable importance,and I do not believe it has yet been noticed. It gives the mean square error for any binomial distribution.”)
舉例
例1
檢查10件產品,10件產品中不合格的個數服從二項分布,其中為不合格率。
例2
調查50個人,50人中患色盲的人數服從二項分布,其中為色盲率。
例3
在件產品中有件廢品,現進行次有放回的抽樣調查,則抽得廢品個數服從二項分布。
性質
密度函數
次試驗中成功的概率為,寫作。
分布函數
二項分布的分布函數為,其中為不超過的最大整數。
數字特征
期望
設隨機變量,則
從而二項分布的期望是。
方差
從而二項分布的方差是。
協方差
兩個服從二項分布的隨機變量的協方差使用協方差計算公式計算即可。
其中第一項僅當X和Y都等于1的時候非0,而分別等于X=1和Y=1的概率。若是次獨立的試驗,則
。
中位數
二項分布的中位數不唯一,滿足的的即是中位數。
若或,或有使得,除了,是奇數的情況,中位數唯一確定等于,這里的函數是四舍五入的函數。
若為整數,則中位數為。
當是偶數時,唯一確定且等于。
眾數
眾數有如下情況:
其中表示不超過的最大整數。
中心項
如圖,當固定時,先隨增加而增大,達到某一極大值后又逐漸下降。由于對
因此
當時,
當時,
當時,
因為不一定是整數,而二項分布中的只取整數值,所以存在整數,使得,而且當從0變到時,起先單調上升,當時達到極大值,后來又單調下降。但若,則這時同時達到極大值。
使取最大值的項稱為的中心項,而稱為最可能成功次數。由上面討論知(即是的整數部分)。若是整數,則亦為最可能成功次數。
參數估計
充分統計量
首先給出充分統計量的概念。
充分統計量(英文:Sufficient 統計量):設是來自某個總體的樣本,總體分布函數為,統計量稱為的充分統計量,如果在給定的取值后,的條件分布與無關。
二項分布的充分統計量是。
證明
,在給定下樣本的條件分布為
它與參數無關,即這個條件分布中已沒有關于的任何信息了,也就是說,樣本中關于的所有信息都在統計量中了,即是二項分布的充分統計量。
矩估計
設總體服從二項分布,其中為未知參數,為的一個樣本,則和的矩估計分別為,,其中
證明
由二項分布可知,
解方程組
將第一式代入第二式,有。
所以。用分別代入上式的,得
代入第一式,得,因為為正整數,故,其中表示取正整數。
下面是一個參數矩估計的特例。
設總體為二項分布是樣本,則參數是不可估的。
證明
首先,是充分統計量,。若有一個是的無偏估計,則有
,或寫成
這是的次方程,最多有個實根,要使它對(0,1)中所有的都成立是不可能的,故參數是不可估的。
其次,若有某個是的無偏估計,則令,由重期望公式知
這說明是的無偏估計,由前述,這是不可能的。
區間估計
二項分布的樣本在樣本量足夠大的時候可用漸近分布來構造比例近似的置信區間。
設是來自二點分布的樣本,現要求的置信區間。由中心極限定理知,樣本均值的漸進分布為,因此有(意為漸進分布)。
這個可作為近似樞軸量,對給定,利用標準正態分布的分位數可得
。括號里的事件等價于。
記,上述不等式可化為
左側的二次三項式的判別式
故此二次三項式的圖形是開口向上并與軸有兩個交點的曲線。記此兩個交點的橫坐標為和,則有。
這里和是該二次三項式的兩個根,它們可表示為
由于比較大,在實用中通常略去,于是可將置信區間近似為
。
假設檢驗
比率p的檢驗
比率可看作某事件發生的概率,即可看作二點分布中的參數。作次獨立試驗,以記該事件發生的次數,則。可以根據檢驗關于的一些假設。先考慮如下的單邊假設檢驗問題:
直觀上看,一個顯然的檢驗方法是取如下的拒絕域,由于只取整數值,故可限制在自然數中。然而,一般情況下對給定的,不一定能正好取到一個,使得
能恰巧使得上式成立的值是罕見的。這是在對離散總體做假設檢驗中普遍會遇到的問題,在這種情況下,較常見的是找一個,使得
于是,可取,此時相當于把顯著性水平由降到,因為它可以保證不大于,從而使顯著性水平為的檢驗。
事實上,在離散場合使用值作檢驗較為簡便,這時可以不用找,而只需根據觀測值計算檢驗的值,即
,并將與之事先給定的顯著性水平比較大小即可,其中為服從分布的隨機變量。譬如,,,,則
于是,若取,由于,則應拒絕原假設。
對另兩個檢驗問題的處理是類似的。檢驗問題以及檢驗問題的值分別為。
大樣本檢驗
大樣本檢驗一般使用漸進正態分布構造檢驗統計量,并使用檢驗的值進行檢驗。
對二項分布,其方差是均值的函數。現要對下列三類假設檢驗問題:
尋找大樣本檢驗方法。在樣本容量充分大時,利用中心極限定理知,故在時,可采用如下檢驗統計量:,其中為的極大似然估計。由此可近似的確定拒絕域。對應上述三類檢驗問題的拒絕域依次為,,。
符號檢驗
符號檢驗是一類重要的非參數檢驗,它主要用來對總體分位數進行檢驗。對任一連續總體,其分位數是存在且唯一的,對的檢驗可參看如下例子進行。
設總體為連續隨機變量,分布函數為是來自該總體的樣本,試檢驗假設“的中位數為0”,即檢驗如下假設:
作符號函數
即為中取正數的個數。直觀上看,在原假設成立時,的取值不應過大也不應過小。在為真時,服從二項分布,從而,可確定常數,使得,該檢驗的拒絕域為。當然,這時使用檢驗的值進行檢驗將會比較簡單。上述檢驗問題的統計量,通常被稱為符號統計量。一般場合,還可以用來檢驗總體分布的分位數。對于這種符號檢驗,有如下的檢驗值:
貝葉斯統計
共軛先驗分布
設,設,則的后驗分布為分布。若取的先驗分布為分布,則的后驗分布仍為分布,即樣本分布如果為二項分布,則共軛先驗分布為分布。
證明
是分布,,其概率分布為。而的先驗分布為,當,故有。計算積分得到。
將結果代入前式,得到后驗密度,即的后驗分布是分布。
又若,則。
計算積分得到。從而得到后驗密度
,即的后驗分布是分布。因此,樣本若為二項分布,其參數的共軛先驗分布族為分布族。
后驗均值估計
設,的先驗分布為分布,則的后驗均值估計是。
后驗方差
設,的先驗分布為分布,則的后驗方差為。
后驗眾數估計
設,的先驗分布為分布,則的后驗眾數估計為。
假設檢驗
Bayes方法處理假設檢驗問題是直截了當的。在求得的后驗分布后,計算的后驗概率
,比較和的大小決定接受還是。和是綜合樣本信息和先驗信息得出的兩個假定世紀發生的概率,檢驗法則如下:當時接受,否則拒絕。設隨機變量是從二項分布中抽取的一個樣本,取的先驗分布為均勻分布,則檢驗問題可以如下求出:
的后驗分布是分布,故有
當取時可算得各種下的后驗概率及后驗機會比如下:
可見當時接受,當時拒絕。
與其他分布的關系
二項分布的和
設隨機變量,且與獨立,則。
伯努利分布
伯努利分布也稱二項分布、0-1分布,是時的二項分布,記為,其分布列為
伯努利分布主要用來描述一次伯努利試驗中成功的次數(0或1)。
泊松二項分布
泊松二項分布是次獨立、不相同的伯努利試驗的和。聯合密度函數寫為:
,其中。當全相等時為二項分布。
泊松近似
泊松分布的概率分布列是,其中參數,記為。
泊松定理(英文:西莫恩·泊松 Theorem):在重伯努利試驗中,記事件在一次試驗中發生的概率為(與試驗次數有關),如果當時,有,則。
證明
記,記,我們可得
對固定的有
從而,對任意的成立,定理得證。
正態近似
棣莫弗-拉普拉斯中心極限定理(英語:de Moivre-皮埃爾-西蒙·拉普拉斯 central limit theorem):在重伯努利試驗中,記事件在一次試驗中發生的概率為,記為次試驗中事件出現的次數,且記,則對任意實數,有。
二項分布的正態近似與泊松近似相比,一般在較小時,用泊松分布近似較好;而在和時,用正態分布近似較好。
多項分布
多項分布是重要的多維離散分布,它是二項分布的推廣。
進行次獨立重復試驗,如果每次試驗有個互不相容的結果:之一發生,且每次試驗中發生的概率為,且。記為次獨立重復試驗中出現的次數,則取值的概率,即出現次,出現次,出現次的概率為
其中。這個聯合分布列稱為多項分布。時即為二項分布。
負二項分布
在伯努利試驗序列中,記每次試驗中事件發生的概率為,如果為事件第次出現時的試驗次數,則的可能取值為。稱服從負二項分布或帕斯卡分布,其分布列為
記為。
貝塔分布
若隨機變量的密度函數為
則稱服從貝塔分布,記作。
貝塔分布和二項分布的關系為:若,設對的條件分布是。那么,給定Y=y的X的條件分布是。
超幾何分布
設有件產品,其中有件不合格品。若從中不放回地隨機抽取件,則其中含有的不合格品的件數服從超幾何分布,記為。超幾何分布的概率分布列為
,其中且均為正整數。
二項分布是有放回的抽取,超幾何分布是不放回的抽取。不放回抽取產品的試驗仍然滿足結果具有對立性和概率具有不變性這兩個特征 ,但由于試驗不再具有獨立性,因此該實驗不再是伯努利試驗,故此時的次品數不再服從二項分布。但當遠遠小于且充分大的時候,超幾何分布逼近二項分布。
相關概念
二項式定理
對任意實數和整數,都有。
證明
展開。對于等號右側的每個乘積因子,必須選擇或與括號外的項相乘,這樣的選擇共有個。所以在乘積的最后結果中,對任意,恰好包含個的項共有個,合并同類項后即得。定理得證。
抽檢特性曲線
由于生產過程總有種種無法完全控制的關系,因此工藝規范也允許加工的尺寸有一定的公差,或允許產品中含有少量廢品,這事實上是承認生產過程的隨機性。在產品質量管理中,全面檢驗一般是不可能的,因此采用抽樣檢查的辦法。抽樣檢驗若用于生產過程中,則成為在線生產過程質量管理的一部分,此外就是用于產品的驗收。如果每個產品要么是好品要么是廢品,那么這時關心的是廢品數或廢品率,這是計數抽樣驗收中最簡單的情況。對質量的要求大體上可以歸結為:存在及滿足當廢品率時,接收這批產品;而當時,拒絕這批產品。最簡單也是最基本的驗收方案是:抽件產品進行檢驗,當廢品數時,接受該批產品;否則拒絕。這個方案稱為方案。由于抽樣的隨機性,任何驗收方案都可能犯兩類錯誤:其一,拒收一批合格品;其二,接受一批不合格品。前者為生產者風險;后者為消費者風險。當然希望減少這兩類風險,即降到犯兩類錯誤的概率。這也為比較兩種不同驗收方案的優劣提供了客觀的標準。
為刻畫驗收方案的性能,一般引進,它表示當廢品率為時,接受該批產品的概率。若以為橫坐標,為縱坐標作圖,則所得的曲線稱為抽檢特性曲線(英文:operating characteristic curve),簡稱曲線。
對方案而言,若抽樣是放回的,則利用二項分布容易得到
因此,問題歸結為找及,使得
,這里是兩個不大的正數,按需要給定。理想的驗收方案要求,這是無法實現的,但可作為比較的基準。
二項分布表
二項分布有現成的表可查,這種表對不同的及給出了的數值。下表給出了對于及,,的二項分布數值表。
伯努利大數定律
雅各布·伯努利大數定律(英文:Bernoulli's law of large numbers):設是次伯努利試驗中事件出現的次數,而是事件在每次試驗中出現的概率,則對任意,都有。
伯努利大數定律是瑞士數學家雅各布·伯努利(德語:Jakob Bernoulli)在研究伯努利試驗中得出的極限定理。這里面,事件出現的次數服從二項分布。
應用
計算機
EM算法
EM算法(英文:Expectation Maximization Algorithm)是一種參數估計方法,對有討厭參數的分布或者數據為截尾或缺失情況尤為有效。EM算法分為E步和M步。E步為期望值計算,根據參數的假設值,給出未知變量的期望估計,應用于缺失值。
M步為最大化計算,根據未知變量的估計值,給出當前的參數的極大似然估計。在E步中得出似然函數和對數似然函數后,參數是不可直接計算的。但引入的不可觀測變量服從二項分布,因此可以根據二項分布的性質對M步進行迭代。
網絡安全
二項分布可以在網絡安全中應用。比如對于無線傳感器網絡,它很容易受到來自妥協節點的內部攻擊,從而可以針對無線傳感器網絡節點信譽和信任的評估,提出基于二項分布的無線傳感器網絡信任評估系統,它是基于對節點行為的監控 ,利用二項分布來描述節點信譽的分布 ,并進一步得到節點信任值,從而指導中繼節點的選擇,降低內部攻擊的危害。
醫學
二項分布在醫學中可以描述疾病(尤其是有聚集性的疾病)在家庭、小環境內等的分布模式。對于基因遺傳疾病可以使用二項分布計算后代中出現疾病的概率。二項分布的推廣——二項分布,負二項分布等都在疾病傳染的模型構建上有應用。也可以應用二項分布的假設檢驗方法對醫學上的藥物效果進行檢驗。比如可以使用二項分布法評價兒童麻疹的免疫水平。
生物
在生物學中可以對植物空間分布等數據進行二項分布模型構建。比如可以使用二項分布擬合雷州林業局U6桉樹無性系林分的直徑分布,建立基于林分年齡、立地指數、林分密度的直徑分布動態預測模型。
參考資料 >
Earliest Known Uses of Some of the Words of Mathematics (B).Mactutor.2023-09-16
Beta distribution.statlect.2023-09-16