必威电竞|足球世界杯竞猜平台

大數定律
來源:互聯網

大數定律(英文:Law of large numbers)又稱大數法則,是一種統計學中的極限定律,指的是在大量重復試驗中一個隨機事件出現的頻率在某個固定數的附近擺動,即所謂的“頻率穩定性”。數學語言表示為:若 是隨機變量序列,令。如果存在這樣的一個常數序列,對任意的,恒有即,則稱序列服從大數定律。

大數定律從長期實踐中發展而來,人們很早就意識到“頻率穩定性”的現象但一直沒有理論上的說明。意大利數學家吉羅拉莫·卡丹諾(英文:Gerolamo Cardano)在他的《機遇博弈》(英文:The Book of Games of Chance)中最早寫下了這個現象,瑞士數學家雅各布·伯努利(德語:Jakob Bernoulli)在他的著作《推測術》(德語:Ars Conjectandi)中首次證明了次伯努利試驗下的大數定律。法國數學家西莫恩·泊松(法語:Simeon-Denis Poisson)首次提出了“大數定律”這一名稱,并證明了泊松大數定律。而后有眾多數學家都對大數定律的建設做出了貢獻。包括俄羅斯數學家切比雪夫(英文:Pafnuty Lvovich Chebyshev),法國數學家埃米爾·博雷爾(法語:émile Borel),蘇聯數學家亞歷山大·辛欽(英文:Aleksandr Yakovlevich Khinchin),俄國數學家安德烈·馬爾科夫(英文:Andrey Markov),俄國數學家安德雷·科爾莫戈羅夫(英文:Andrey Kolmogorov)等。

大數定律根據隨機變量的收斂性分為弱大數定律和強大數定律。前者是依概率收斂意義下的大數定律,后者是以概率1收斂意義下的大數定律。弱大數定律包括伯努利大數定律、泊松大數定律、切比雪夫大數定律、馬爾科夫大數定律、辛欽大數定律等,強大數定律包括博雷爾大數定律、科爾莫戈羅夫大數定律等。如不加說明,大數定律通常指的是弱大數定律。

大數定律應用廣泛。生活中常用“頻率穩定性”的思想用概率估計頻率。數學上的蒙特卡羅方法成為了求積分的經典方法。經濟學上保險業,銀行管理、貸款等服務均有大數定律的應用。統計物理中在多粒子組成的宏觀體系內的計算也有大數定律作理論基礎。

定義

弱大數定律

弱大數定律是依概率收斂意義下的大數定律。一般提到大數定律的時候默認提到的是弱大數定律。先介紹依概率收斂:

如果對任意的成立,則稱依概率收斂于,并記為。

弱大數定律(英文:Weak law of large numbers):若 是隨機變量序列,令

如果存在這樣的一個常數序列,對任意的,恒有,則稱序列服從弱大數定律。

強大數定律

強大數定律是以概率1收斂意義下的大數定律。先介紹以概率1收斂:

若是隨機變量,若,則稱以概率1收斂于,又稱幾乎處處收斂于,記為。

強大數定律(英文:Strong law of large numbers):設是獨立隨機變量序列,若,則稱它滿足強大數定律。

歷史

人們在長期實踐中發現,雖然個別隨機事件在某次試驗中既可以出現也可以不出現,但是在大量重復試驗中卻呈現出明顯的規律性,即一個隨機事件出現的頻率在某個固定數的附近擺動,這就是所謂“頻率穩定性”。對于這點,很久以來都沒有理論上的說明。大約1564年,意大利數學家吉羅拉莫·卡丹諾(英文:Gerolamo Cardano)在他的《機遇博弈》(英文:The Book of Games of Chance)中不加證明地指出經驗統計的準確性往往會隨著試驗次數的增加而提高。瑞士數學家雅各布·伯努利德語:Jakob Bernoulli)在他的著作《推測術》(德語:Ars Conjectandi)中首次證明了次伯努利試驗下的大數定律——當時還未曾有大數定律的說法,伯努利試圖證明的是在次伯努利試驗中用頻率估計概率可以達到事實上的準確性。伯努利的侄子尼古拉一世·伯努利(德語:Nikolaus I. Bernoulli)和法國數學家亞伯拉罕·棣莫弗法語:Abraham de Moivre)對證明進行了優化。

1837年,法國數學家西莫恩·泊松(法語:Simeon-Denis Poisson)在他的《刑事和民事判決可能性研究》(法語:Recherches sur la probabilité des jugements en matière criminelle et en matière civile)中首次提出了大數定律的名稱,并推廣了伯努利大數定律,即泊松大數定律。而后有眾多數學家都對大數定律的建設做出了貢獻。包括俄羅斯數學家切比雪夫(英文:Pafnuty Lvovich Chebyshev),法國數學家埃米爾·博雷爾法語:émile Borel),蘇聯數學家亞歷山大·辛欽(英文:Aleksandr Yakovlevich Khinchin),俄國數學家安德烈·馬爾科夫(英文:Andrey Markov),俄國數學家安德雷·科爾莫戈羅夫(英文:Andrey Kolmogorov)等。博雷爾于1909年證明博雷爾強大數定律。1928年辛欽提出了強大數定律的名稱并證明了辛欽大數定律。

舉例

例1

一個公平的擲硬幣是一個伯努利試驗。當一個公平的硬幣被投擲一次時,結果是正面的理論概率等于 。因此,根據大數定律,在大量的硬幣翻轉中,正面的比例應該大致為。當n接近無窮大時,在n次翻轉后正面的比例幾乎肯定會收斂到。這就是頻率穩定到概率的含義。

例2

要估計某種產品的不合格率則可以才能從該種產品中隨機抽取件。當很大時,這件產品中的不合格品的比例可作為不合格率的估計值。這便是大數定律在其中的作用。

例3

本福特定律(英文:Benford's law):它描述的是在一堆從實際生活得出的純隨機數據中,為首數字出現的頻率穩定等于某個概率。比如十進制下,以1為首位數字的數的出現頻率約為30%,以9為首位數字的數的出現頻率約為4%。這個定律可以用來揭露數據造假,比如華盛頓郵報曾引用該定律聲稱2009年伊朗總統大選中有造假情況,因為數字5和7出現的頻率太少。這個定律也用到了頻率穩定到概率的含義。

分類

為方便理解,這里先給出隨機變量、分布、獨立的定義。

隨機變量:用來表示隨機現象結果的變量稱為隨機變量,一般用來表示。隨機變量的嚴格定義為:

設是定義于概率空間上的單值實函數,如果對于直線上任一博雷爾點集,有

則稱為隨機變量,而稱為隨機變量的概率分布。稱為隨機變量的分布函數。

設為個隨機變量,若對于任意的成立

則稱是相互獨立的。

弱大數定律

伯努利大數定律

伯努利大數定律(英文:Bernoulli's law of large numbers):設是次伯努利試驗中事件出現的次數,而是事件在每次試驗中出現的概率,則對任意,都有

證明

這里先給出切比雪夫總和不等式及其證明。

切比雪夫不等式(英文:Chebyshev 不等式):設隨機變量的數學期望和方差都存在,則對任意常數,有

切比雪夫總和不等式的證明:設是一個連續隨機變量,其密度函數為。記,我們有

由此式知切比雪夫總和不等式對連續隨機變量成立,對離散隨機變量亦可類似進行證明。

伯努利大數定律可由切比雪夫不等式直接加以證明:

,趨于無窮則右式趨于0,得證。

泊松大數定律

泊松大數定律(英文:西莫恩·泊松's law of large numbers):如果在一個獨立試驗序列中,事件在第次試驗中出現的概率等于,以記在前次試驗中事件出現的次數,則對任意,都有

證明

證明過程需要用到即將介紹的切比雪夫大數定律。定義為第次試驗中事件出現的次數,則的期望和方差滿足:

再用切比雪夫大數定律即可得到泊松大數定律。

切比雪夫大數定律

切比雪夫大數定律(英文:Chebyshev's law of large numbers):設是由兩兩不相關的隨機變量所構成的序列,每一隨機變量都有有限的方差,并且它們有公共上界

則對任意的,皆有

證明

因為兩兩不相關,故。再由切比雪夫總和不等式得到

所以。于是當時有,定律得證。

伯努利大數定律和泊松大數定律均是切比雪夫大數定律的特例。

馬爾科夫大數定律

馬爾科夫大數定律(英文:Markov law of large numbers):對于隨機變量序列,若,則對任意,皆有

證明

注意切比雪夫大數定律的證明中只需即可滿足不等式證明,而這正是馬爾科夫大數定律中的條件。也稱為馬爾科夫條件。

辛欽大數定律

辛欽大數定律(英文:Khinchin’s law of large numbers):設是相互獨立的隨機變量序列,它們服從相同的分布,且具有有限的數學期望,則對任意的,有

證明

由于具有相同的分布,故有同一特征函數,設為,因為數學期望存在,故可展開成

而的特征函數為,對于固定的,

極限函數是連續函數,它是退化分布所對應的特征函數,由逆極限定理知的分布函數弱收斂于,從而知依概率收斂于常數,從而定理得證。

伯努利大數定律是辛欽大數定律的特殊情況。

強大數定律

博雷爾強大數定律

博雷爾強大數定律(英文:Borrell's strong law of large numbers)設是事件在次獨立試驗中的出現次數,在每次試驗中事件出現的概率均為,那么當時

證明

先給出博雷爾-康特立引理(英文:Borel-Cantelli 引理):

(1)若隨機事件序列滿足則

(2)若是相互獨立的隨機事件序列,則成立的充分必要條件為或。

以概率1收斂于的定義也可以表達為:對任意的,成立,若記,則上式可寫成。根據博雷爾-康特立引理,只需證明級數對任意都收斂即可。將表示成獨立雅各布·伯努利0-1變量之和,從而

。所以

注意到各的獨立性及,因此上面的和式中只有及的項才不等于0,顯然,。前者的項數有項,后者有項,因此,。

由于,從而,從而在時趨于0,得證。

科爾莫戈羅夫強大數定律

隨機變量獨立情況

科爾莫戈羅夫強大數定律(英文:安德雷·柯爾莫哥洛夫's strong law of large numbers)設,是獨立隨機變量序列,且,則成立

證明

先給出證明中需要的噶依克-瑞尼不等式。

噶依克-瑞尼不等式(英文:Hájek-Rényi inequality):若是獨立隨機變量序列,,而是一列正的非增常數序列,則對任意正整數及,均有

在噶依克-瑞尼不等式中,令,可以得到

由概率的連續性,

因為,從而。從而定理成立。

隨機變量獨立同分布情況

設是相互獨立同分布的隨機變量序列,則成立的充要條件是存在且等于

證明

若的分布函數為,我們來證明不等式

事實上,,因此

現在有

以及

從而不等式成立。這個不等式說明的充要條件為。

記,若,這里是有限數,則

這樣一來,事件發生無窮多次的概率為0,因此注意到的獨立性,并利用博雷爾-康特立引理可知

。從而,這是顯然有,這樣,我們已證得必要性。

下證充分性。使用截尾法,令。先驗證滿足科爾莫戈羅夫強大數定律條件。以記的分布函數,則

由于

故,因此

因為,顯然,因此,由于

為證定理成立,只需再證。然而

由博雷爾-康特立引理知,以概率1有,只對有限個成立。

因此。這樣,定理的證明已經完成。

局限性

下面分四個方面舉例說明大數定律不成立的情況。

僅滿足獨立性

設是相互獨立的隨機變量序列,且滿足,則不滿足大數定律。

獨立同分布

1.設獨立同分布,若其分布函數為,則不滿足大數定律。這個分布也叫作標準柯西分布(英文:Standard Cauchy distribution)。柯西分布都不服從大數定律。因為尾端數據過大,柯西分布本身沒有均值和方差

2.若有有限的方差:,且令,那么不服從大數定律。

不獨立但同分布

設子A有四個紅面和兩個白面,而骰子B有兩個紅面和四個白面。擲一個硬幣,若出現正面,接著就連續擲骰子A;若出現反面,就擲骰子B。令,則不服從大數定律。

其他

設是隨機變量序列,令,且,(均為大于0的常數),那么不服從大數定律。

大數定律成立的充要條件

這里再給出一個大數定律成立的充要條件:

設是任何隨機變量序列,,并且記,則隨機變量序列滿足大數定律的一個充要條件是

相關概念

四種收斂的關系

隨機變量序列一共四種常見的收斂性,分別為依分布收斂。依概率收斂,階收斂,以概率1收斂。這里一并給出定義并給出推導關系。

依分布收斂

設隨機變量的分布函數分別為,如果,則稱則稱依分布收斂于,并記為。

的意思是分布函數列弱收斂于,即在的每一連續點上都有。

依概率收斂

如果對任意的成立,則稱依概率收斂于,并記為。

r階收斂

設對隨機變量及有,其中為常數,如果,則稱階收斂于,并記為。時也稱均方收斂。

以概率1收斂

若是隨機變量,若,則稱以概率1收斂于,又稱幾乎處處收斂于,記為。

關系

依概率收斂推出依分布收斂

證明

因為對有

所以我們有。如果依概率收斂于,則

,因而有

同理可證對成立。所以對,有

如果是的連續點,則令趨于可得。定理證畢。

依概率收斂和依分布收斂等價情況

設是常數,則

證明

由關系1證明可知只需證明由依分布收斂于常數可推出依概率收斂于常數。事實上,對任意的,

得證。

r階收斂推出依概率收斂

證明

先證對于任意,成立。

事實上,若以記的分布函數,則可得

從而階收斂可推出依概率收斂,得證。

以概率1收斂推出依概率收斂

證明

以概率1收斂于的定義也可以表達為:對任意的,成立。利用概率的連續性可知,等價于。

根據德摩根定理又知等價于。

由于,從而,得證。

大數定律和中心極限定理的關系

大數定律和中心極限定理同為數理統計學中的極限定理。大數定律討論的是在什么條件下,隨機變量序列的算數平均值依概率收斂到其均值的算術平均。中心極限定理討論的是在什么條件下,獨立隨機變量和的分布函數會收斂于正態分布。有隨機變量獨立同分布下的中心極限定理,也有獨立不同分布下的中心極限定理。下面給出獨立同分布下的林德伯格-萊維中心極限定理。

林德伯格-萊維中心極限定理(英文:Lindbergh-Levy central 函數極限 theorem):設是獨立同分布的隨機變量序列,且存在,若記,則對任意實數,有

二者的關系通常是不好確定的。但是,如果獨立同分布,且方差大于0小于無窮,則大數定律與中心極限定理均成立。若為獨立隨機變量序列,且服從中心極限定理,要使它滿足大數定律,必須且只需(的無窮小)

應用

基礎數學

蒙特卡羅方法

蒙特卡洛方法(英文:Monte Carlo method)是一種隨機模擬的計算方案,以積分計算為代表。

比如計算定積分可以任取一列相互獨立的、都具有中均勻分布隨機變量,則也是一列相互獨立相同分布的隨機變量,而且。既然,因此只要能求得,便能得到的數值。應用大數定律,因為,從而只需要能生成隨機變量序列就能對積分進行數值計算。而這正是計算機的應用。

矩估計的相合性

假設總體的均值未知,通常的做法是對進行次獨立重復觀察,得到樣本,并以它們的平均值作為的估計量,這樣做法的依據之一是依辛欽大數定律應有。這個性質在數理統計學中稱為相合性。對階矩也成立。

經濟學

大數定律在經濟學中有著很高的重要性。大數定律是保險財政穩定性重要的理論基礎。關于保險金的賠償具實是符合大數定律的,因為現實中每個人的保費足不同的,但是因為投保的基數很大,所以根據大數定律,每個投保戶的平均賠償金額將會穩定在某一數值附近。大數定律在保險學上的應用包括保費的厘定,以及保險金的賠償等等。大數定律也可以計算保險單位數,求出被保險單位的數量增加到多少才能符合保險公司財政穩定性的要求。大數定律也對小微企業貸款問題有所幫助。大數定律可以讓銀行等金融服務提供者研究小微企業及其所處行特點并進行系統性的規劃,減少系統風險性。

統計物理

統計物理常見的模型是由多粒子組成的宏觀體系,在原則上,非統計的預測是不可能的。因為在經典描述中,對于一個體系的唯一預測將要求直到同一時刻每個粒子的位置和速度,這種信息是不可能得到的。因此概率統計在其中扮演著重要角色,這其中,大數定律對均值和概率的計算起著理論上的支持。比如計算自旋體系平均值和理想氣體中分子的分布。

生產生活

生活中用到最多的是用概率估計頻率。因為大數定律將頻率穩定到概率,所以當生活中的樣本數足夠大時可以通過計算該問題在數學上的概率去估計它發生的概率。比如扔1000次硬幣估計正面向上的次數,并不一定非要扔1000次,而是可以直接得出500的結論。

參考資料 >

Earliest Known Uses of Some of the Words of Mathematics (L).Mactutor.2023-09-05

The Devil Is in the Digits: Evidence That Iran's Election Was Rigged.Washingtonpost.2023-09-04

生活家百科家居網