正態(tài)分布(Normal distribution),又稱為常態(tài)分布或高斯分布,通常記作,是非常重要的概率分布,在統(tǒng)計學(xué)領(lǐng)域具有重要影響。正態(tài)隨機(jī)變量的概率密度函數(shù)定義為,式中,是的數(shù)學(xué)期望,是的方差;當(dāng)參數(shù),時,即時,則稱服從標(biāo)準(zhǔn)正態(tài)分布,相應(yīng)的概率密度函數(shù)記為$\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},-\infty 正態(tài)分布的概念最早由法國數(shù)學(xué)家亞伯拉罕·棣莫弗(A. D. Moivre)于1733年提出,但他沒有從統(tǒng)計學(xué)的角度考慮正態(tài)分布的意義并將其用在誤差分析中。在其之后,高斯(C. F. Gauss)率先提出了“正態(tài)誤差”的理論,并和皮埃爾-西蒙·拉普拉斯(P-S. 皮埃爾-西蒙·拉普拉斯)一起研究了正態(tài)分布的性質(zhì)。 正態(tài)分布的概率密度函數(shù)曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線(類似于寺廟里的大鐘,因此得名)。正態(tài)分布作為連續(xù)分布有著良好的統(tǒng)計學(xué)性質(zhì),有概率密度、累積分布、矩母和特征函數(shù)表達(dá)式,有期望(均值)、方差、偏度和峰度等數(shù)字特征存在。中心極限定理指出,在特定條件下,如果是獨立分布的隨機(jī)變量,它們具有相同的分布,且有有限的均值和方差,則這些樣本的平均值也是一個隨機(jī)變量,其分布隨著樣本數(shù)量的增加而收斂于正態(tài)分布。因此,許多與獨立過程總和有關(guān)的物理量,例如測量誤差,通常可被近似為正態(tài)分布。 在現(xiàn)實世界中,許多自然和社會現(xiàn)象如考試成績和人體身高等,都近似遵循正態(tài)分布。這種分布是統(tǒng)計分析和概率論中的核心概念,廣泛應(yīng)用于諸如質(zhì)量控制、頻數(shù)估計以及制定醫(yī)學(xué)參考標(biāo)準(zhǔn)等領(lǐng)域。 正態(tài)分布,最初由法國數(shù)學(xué)家棣莫弗(A. D. Moivre)在1733年引入,最初的探索并未深入其在統(tǒng)計學(xué)上的應(yīng)用,尤其是誤差分析方面。他運用正態(tài)分布的近似性質(zhì),計算了與拋硬幣試驗中的隨機(jī)事件相關(guān)的概率。當(dāng)時,正態(tài)分布被稱為指數(shù)鐘形曲線,并作為二項分布當(dāng)?shù)慕品植肌?/p> 許多天文學(xué)家開始了尋找誤差分布曲線的嘗試,其中,1755年,英國天文學(xué)家托馬斯·喬治·蓋洛德·辛普森(T. Simpson)率先走出了有意義的一步,進(jìn)行了關(guān)于誤差理論的工作,但辛普森的工作沒有涉及一般誤差概率理論,而是在誤差滿足某種特定的分布的前提下,專注于計算平均誤差的分布,從而證明了在某種概率意義下,平均誤差小于個別誤差,首次從概率論角度嚴(yán)格證實了算術(shù)平均的優(yōu)越性。 直到1809年,德國數(shù)學(xué)家卡爾·弗里德里希·高斯(C. F. Gauss)提出了“正態(tài)誤差”的理論,正態(tài)分布才展現(xiàn)了其應(yīng)用價值,被廣泛認(rèn)可為一種概率分布,此后,正態(tài)分布也稱為高斯分布。1823年,高斯出版了他的專著《Theoria combinationis observationum erroribus minimis obnoxiae》,在這本書中,他引入了一些重要的統(tǒng)計概念,包括非線性加權(quán)最小二乘法、最大似然法等,并且在其中對正態(tài)分布進(jìn)行了深入研究。 盡管高斯最早提出“正態(tài)誤差”理論,但皮埃爾-西蒙·拉普拉斯也做出了顯著的貢獻(xiàn)。1774年,他首次探討了合并多個觀測值的問題,并導(dǎo)出了拉普拉斯分布,1782年,他首次計算了積分的值,為正態(tài)分布提供了規(guī)范化常數(shù)。拉普拉斯在1810年發(fā)表的論文中,論述了從包含高次項的公式的近似估計方法中導(dǎo)出關(guān)于減少誤差的中心極限定理,證明了中心極限定理。隨后,在1812年,拉普拉斯先后考慮多種分布情形,在《分析概率論》給出了亞伯拉罕·棣莫弗—拉普拉斯中心極限定理的理論證明,他擴(kuò)展了棣莫弗的理論,指出二項分布可用正態(tài)分布逼近,突顯了正態(tài)分布的理論重要性。 1809年,愛爾蘭裔美國數(shù)學(xué)家羅伯特·阿德里安(R. Adrain)在所著論文《觀測誤差的概率研究》中,也為誤差法則提出兩項力證,幾乎同時獨立于高斯發(fā)表了兩個有見地但有缺陷的正態(tài)概率定律推導(dǎo),但是他的工作并沒有引起人們過多的關(guān)注,也沒有影響到誤差論和相關(guān)問題的發(fā)展。直到1871年,阿貝(Abbe)發(fā)表論文《最小二乘法的歷史注釋》,這才引起人們對艾德里安關(guān)于誤差理論工作的關(guān)注。 在19世紀(jì)中葉,詹姆斯·麥克斯韋證明了正態(tài)分布不僅是一種方便的數(shù)學(xué)工具,而且還可能發(fā)生在自然現(xiàn)象中:“ 在某個方向上解析的速度介于和之間的粒子數(shù)量為:。19世紀(jì)中葉至末期,比利時統(tǒng)計學(xué)家朗伯·阿道夫·雅克·凱特勒(Quetelet)和英國生物統(tǒng)計學(xué)家弗朗西斯·高爾頓(F. Galton)等人在社會、經(jīng)濟(jì)、遺傳學(xué)等領(lǐng)域的工作將概率論應(yīng)用擴(kuò)展到更廣泛的范圍。凱特勒在自然科學(xué)和社會科學(xué)中運用概率論(包括正態(tài)分布),成為首位將概率論引入這兩個領(lǐng)域的人,而高爾頓則首創(chuàng)將統(tǒng)計方法引入生物學(xué),設(shè)計了高爾頓板以研究隨機(jī)現(xiàn)象和驗證中心極限定理。 自引入以來,正態(tài)分布已經(jīng)有了許多不同的名稱:誤差定律、拉普拉斯第二定律、高斯定律等。其中,20世紀(jì)英國統(tǒng)計學(xué)家卡爾·皮爾遜(K. Pearson)對正態(tài)分布的研究和推廣起到了關(guān)鍵作用,他不僅使得正態(tài)分布這個名稱變得流行,而且是第一個利用標(biāo)準(zhǔn)差來量化和表述正態(tài)分布的人。后來,羅納德·費雪(R. A. Fisher)于1915年在皮爾森的基礎(chǔ)上加入了位置參數(shù),進(jìn)一步發(fā)展了現(xiàn)代通用的正態(tài)分布表述形式,這些貢獻(xiàn)幫助了正態(tài)分布在統(tǒng)計學(xué)和相關(guān)領(lǐng)域的廣泛應(yīng)用。 一維隨機(jī)變量的概率密度函數(shù)(Probability Density 函數(shù),PDF)定義為,式中,是隨機(jī)變量的數(shù)學(xué)期望(均值),是的方差,且,。顯然,單變量情況下的概率密度函數(shù)由參數(shù)和就可以完全確定,為簡單起見常將相應(yīng)的概率密度函數(shù)簡記為或,讀作 服從,或服從正態(tài)分布。 當(dāng)參數(shù),時,即時,則稱服從標(biāo)準(zhǔn)正態(tài)分布,相應(yīng)的概率密度函數(shù)定義為。正態(tài)分布隨機(jī)變量概率密度函數(shù)都滿足:,。對于一般形式的正態(tài)分布,有。 累積分布函數(shù)(Cumulative Distribution 函數(shù),CDF),又叫分布函數(shù),是概率密度函數(shù)的積分。根據(jù)連續(xù)型隨機(jī)變量分布函數(shù)的定義,一般正態(tài)分布的分布函數(shù)為:,正態(tài)分布函數(shù)是一個增函數(shù),而且有,,。 特別地,當(dāng)參數(shù),時,標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)為:,則有。 設(shè),且為標(biāo)準(zhǔn)正態(tài)分布函數(shù),則:,,。 對于隨機(jī)變量,若數(shù)學(xué)期望存在,則對任意實數(shù),其矩母函數(shù)(Moment Generating 函數(shù),MGF,又稱矩生成函數(shù))定義為,記為。對于連續(xù)分布,其中的期望是;對于離散分布,其中的期望是。若隨機(jī)變量服從,按照矩母函數(shù)及其數(shù)學(xué)期望的定義公式,可以寫出一般正態(tài)分布的矩母函數(shù)為,其中,標(biāo)準(zhǔn)正態(tài)分布的參數(shù)、,代入上式,得到標(biāo)準(zhǔn)正態(tài)分布的矩母函數(shù)為。 為了定義特征函數(shù),須先引進(jìn)復(fù)隨機(jī)變量的概念,設(shè)和都是樣本空間上的實隨機(jī)變量,則稱為復(fù)隨機(jī)變量,其中。復(fù)隨機(jī)變量的數(shù)學(xué)期望為,若是(實)隨機(jī)變量,則當(dāng)實數(shù)取定時,為復(fù)隨機(jī)變量。 因此,設(shè)是隨機(jī)變量,則稱實變量的復(fù)值函數(shù)為隨機(jī)變量的特征函數(shù),或稱為相應(yīng)分布的特征函數(shù)(Characteristic 函數(shù))。 若隨機(jī)變量服從,按照特征函數(shù)定義公式,則一般正態(tài)分布的特征函數(shù)為,其中,標(biāo)準(zhǔn)正態(tài)分布的參數(shù)、,代入上式,得到標(biāo)準(zhǔn)正態(tài)分布的特征函數(shù)為。 正態(tài)分布概率密度函數(shù)是一條對稱的鐘形曲線(這一形狀類似于寺廟中的大鐘,因此也常被稱為鐘形曲線),中間高,兩邊低,曲線位于x軸的上方,且以均值所在直線為對稱軸,左右完全對稱,隨著x的增大與減小,曲線無限趨于x軸,正態(tài)分布的期望、均值、中位數(shù)和眾數(shù)相同,均等于μ。 均值代表正態(tài)分布的集中趨勢位置,通常被稱為位置參數(shù)。當(dāng)取值為均數(shù)時,位于曲線的單峰的最高點,即此時的值最大,這表明在附近的概率密度最大;當(dāng)?shù)娜≈惦x開均數(shù)時,曲線的高度降低,即概率密度減小,且值越遠(yuǎn)離均數(shù),曲線的高度就越低,即概率密度越小。 標(biāo)準(zhǔn)差是描述正態(tài)分布數(shù)據(jù)分布離散程度的參數(shù),通常被稱為尺度參數(shù)。越大,數(shù)據(jù)分布越分散,曲線越扁平;越小,數(shù)據(jù)分布越集中,曲線越瘦高。固定的值不變,改變的值,則曲線延軸平移,但其形狀不改變;固定的值不變,改變的值,則曲線的位置不變,但隨著的減小,曲線變得陡峭。 偏度是用來衡量統(tǒng)計數(shù)據(jù)分布的偏斜方向和程度的指標(biāo),也稱偏態(tài)、偏態(tài)系數(shù),是統(tǒng)計數(shù)據(jù)分布非對稱程度的數(shù)字特征。偏度描述了概率分布密度曲線相對于平均值的不對稱性,具體而言,偏度反映了密度函數(shù)曲線尾部的相對長度,偏度的計算公式為:。 當(dāng)偏度為0時,表示數(shù)據(jù)分布完全對稱,左右尾部長度相等,例如正態(tài)分布的偏度即為0。當(dāng)數(shù)據(jù)分布呈現(xiàn)負(fù)偏時,意味著數(shù)據(jù)的左側(cè)尾部較長,即較多的數(shù)據(jù)值偏離了平均值向右側(cè)集中;而正偏則表示數(shù)據(jù)的右側(cè)尾部較長,即較多的數(shù)據(jù)值偏離了平均值向左側(cè)集中。 峰度是描述數(shù)據(jù)分布形態(tài)陡緩程度的統(tǒng)計量,峰度越大,數(shù)據(jù)分布越陡峭,尾部越厚;峰度越小,數(shù)據(jù)分布越平滑,偏度的計算公式為:。 正態(tài)分布的峰度為3,很多情況下,為方便計算,一般將正態(tài)分布的峰度值減去3,這樣使得其峰度變?yōu)?,更方便進(jìn)行比較。當(dāng)數(shù)據(jù)的峰度為0時,表示數(shù)據(jù)分布的陡緩程度與正態(tài)分布相同;峰度大于0,表示數(shù)據(jù)分布比正態(tài)分布更陡峭,而峰度小于0,表示數(shù)據(jù)分布比正態(tài)分布更平坦;峰度的絕對值越大,表示數(shù)據(jù)分布形態(tài)與正態(tài)分布的差異越大。 正態(tài)分布的導(dǎo)數(shù)即對其概率密度函數(shù)求導(dǎo),具體可表示為。令,解得;當(dāng)時,,函數(shù)遞增;當(dāng),函數(shù)遞減。因此,這個導(dǎo)數(shù)值在正態(tài)分布的峰值處為0,向兩側(cè)逐漸變小,即正態(tài)分布的概率密度函數(shù)是單峰曲線。 設(shè)為隨機(jī)變量,為常數(shù),為正整數(shù),則量(若存在)稱為分布關(guān)于的階矩。若,則量稱為分布的階(原點)矩,記為;若,則量稱為分布的階中心矩,記為。 中心矩與原點矩之間有如下簡單的關(guān)系:。其中,,故前4階中心矩可分別用原點矩表示:;;;。 對于正態(tài)分布,前四個矩具有特殊的性質(zhì)。第一階原點矩是正態(tài)分布的均值:;第二階中心矩是正態(tài)分布的方差:;第三階中心矩是正態(tài)分布的偏度:;第四階中心矩是正態(tài)分布的峰度:。 如果需要計算中心矩,還得根據(jù)原點矩化為中心矩,但矩的階數(shù)愈高,計算工作量愈大。因此引入累積量的概念,利用累積量來計算中心矩,定義為各階累積量,規(guī)定。 令特征函數(shù)的自然對數(shù)等于,設(shè),聯(lián)立化簡可得累積量與矩的關(guān)系為:;;;。累積量的計算公式也可定義為。 隨機(jī)變量的概率密度函數(shù)為,當(dāng)期望和方差已知,正態(tài)分布是所有均值和熵存在且協(xié)方差是的分布中熵最大的分布。 在實驗中,如果已經(jīng)排除了系統(tǒng)因素的影響,而且在相同條件下對某個量進(jìn)行了次獨立測量,那么所得的測量值的算術(shù)平均值即為:,其中,每個測量值與真值之差為,將各測量值的值相加并除以得到:。根據(jù)正態(tài)分布概率密度分布的對稱性,當(dāng)時,即,所以算術(shù)均值是真值的最佳估計值。測量值與該測量列的算術(shù)平均值之間的偏差為“殘差”。由于各殘差的平均值為零,所以各殘差的平均值不能反映測量值與真值之差的大小,為此引入標(biāo)準(zhǔn)差的概念。標(biāo)準(zhǔn)偏差也稱為均方根偏差,定義為:,稱為貝塞爾公式。 由于在實際情況下真值無法知道且測量次數(shù)有限,一般用殘差代替可以證明,在測量次數(shù)足夠多時,標(biāo)準(zhǔn)偏差的估計值為,稱為標(biāo)準(zhǔn)偏差估計值的貝塞爾公式,對平均值的標(biāo)準(zhǔn)差估計值為。 在正態(tài)分布中,代表均值,代表標(biāo)準(zhǔn)差。對于隨機(jī)變量,落入?yún)^(qū)間,,的概率分別為: 這個現(xiàn)象表明,服從正態(tài)分布的隨機(jī)變量的取值基本上落在區(qū)間內(nèi),幾乎全部落在區(qū)間內(nèi),此特征又稱為正態(tài)分布的原則。 當(dāng)多個隨機(jī)變量相互獨立且服從正態(tài)分布時,它們的線性組合仍然服從正態(tài)分布。具體來說,如果有一組獨立同分布的隨機(jī)變量,均服從正態(tài)分布,則對于任意實數(shù),線性組合也服從正態(tài)分布 ,其在加法和標(biāo)量乘法下保持不變。例如與 是統(tǒng)計獨立的正態(tài)隨機(jī)變量,那么它們的和也滿足正態(tài)分布;它們的差也滿足正態(tài)分布,與兩者是相互獨立的,與的方差相等。 中心極限定理指出,當(dāng)一個量受到相互獨立的隨機(jī)因素的綜合影響而每個隨機(jī)因素所起的作用不大時,該量的分布一般服從或近似服從正態(tài)分布。實際的經(jīng)濟(jì)問題均通過大樣本來估計總體,總體的分布已知不是必要的解題條件,只要當(dāng)樣本容量很大,隨機(jī)變量的和總是近似服從正態(tài)分布。這說明,如果從任意分布的總體中抽取足夠多的樣本,樣本均值會漸近地接近總體均值,即從任意分布的總體中抽取均值的樣本分布漸近地接近正態(tài)分布。 中心極限定理是統(tǒng)計學(xué)中的重要定理,對于任何分布,只要其存在期望和方差,則當(dāng)足夠大時,樣本均值近似服從期望為、方差為的正態(tài)分布。中心極限定理與正態(tài)分布密切相關(guān),它是統(tǒng)計學(xué)中處理大樣本的一個重要工具,說明了正態(tài)分布的重要性。其中,常見的中心極限定理有列維-林德伯格(Levy-Lindberg)中心極限定理和棣莫弗-拉普拉斯(De Moivre-皮埃爾-西蒙·拉普拉斯)中心極限定理等。 設(shè)一組隨機(jī)變量相互獨立且同分布,若,,,則對于任意實數(shù),有,其中是標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù),該定理是獨立同分布情形下的中心極限定理,也稱為列維-林德伯格(Levy-Lindberg)中心極限定理,這個定理的直觀意義是,當(dāng)足夠大時,可以近似地認(rèn)為。 設(shè)隨機(jī)變量是一個獨立同分布的隨機(jī)變量序列,且每個都服從分布,則對任意一個實數(shù),總有,該定理被稱為亞伯拉罕·棣莫弗皮埃爾-西蒙·拉普拉斯中心極限定理(De Moivre-Laplace)。由二項分布的可加性知道,,因此概率的值理論上是可以精確算出的,但是,實際問題中當(dāng)較大時,計算并不方便。 由泊松定理和亞伯拉罕·棣莫弗皮埃爾-西蒙·拉普拉斯中心極限定理推得,如果隨機(jī)變量,那么當(dāng)較大時,可以利用正態(tài)分布近似求得概率。對于泊松分布,當(dāng)參數(shù)λ較大時,可以使用均值為λ和方差為λ的正態(tài)分布進(jìn)行近似。另外,對,,仍用上面的算式來近似,因為當(dāng)較大時,、的值很小,可以忽略不計;當(dāng)時,認(rèn)為;當(dāng)時,認(rèn)為。 參數(shù)估計是數(shù)理統(tǒng)計學(xué)重要內(nèi)容之一,在實際問題中,總體的數(shù)字特征或分布通常是未知的。即使知道總體的分布形式,例如正態(tài)分布或泊松分布,其中的參數(shù)也是未知的。因此,需要通過樣本來估計總體的分布函數(shù)、分布中的未知參數(shù)或數(shù)字特征,這樣就產(chǎn)生了統(tǒng)計估計問題。 參數(shù)估計的參數(shù)是指總體分布中的未知參數(shù),例如,在正態(tài)分布中、未知,是需要估計的參數(shù)。如果已知總體的分布函數(shù)為其中參數(shù)(一維或多維)是未知的,由抽取的隨機(jī)樣本所提供的信息,建立樣本的函數(shù)(即統(tǒng)計量)來對未知參數(shù)作出估計并討論估計量“最佳”準(zhǔn)則的統(tǒng)計問題,稱為參數(shù)估計。從估計形式看,可分為點估計與區(qū)間估計兩大類,其常用的方法有矩估計、最小二乘估計和極大似然法等。 統(tǒng)計量是只與樣本有關(guān)、不含任何未知參數(shù)的函數(shù),設(shè)為取自總體的一個樣本,樣本的函數(shù)為,若中不直接包含總體分布中的任何未知參數(shù),則稱為統(tǒng)計量。 在抽樣前,統(tǒng)計量是一個隨機(jī)變量,在抽樣后得到的是一次樣本觀測值,這些是已經(jīng)測得的,可以直接用于計算的數(shù)字,代入構(gòu)造好的統(tǒng)計量中,則所得統(tǒng)計量的觀察值是統(tǒng)計量的一次觀測值,它是一個可以由數(shù)據(jù)算得的實數(shù)。 設(shè)為取自總體的一個樣本,稱為樣本均值,它反映了樣本各分量取值的平均狀態(tài),是對樣本位置特征的一個刻畫,可作為總體均值的一個近似值;為樣本方差,它反映了樣本中各分量取值的離散程度,可用來作為總體方差的一個近似值;為樣本標(biāo)準(zhǔn)差。它們的觀測值分別為:,;。 設(shè)隨機(jī)變量,則總體的一階、二階原點矩,有,。樣本的一階、二階原點矩,有,,令,,聯(lián)立方程組,可得均值和方差的矩估計,分別為:,。 由上述正態(tài)分布概率密度函數(shù),可得,正態(tài)分布的似然函數(shù)為,兩邊取對數(shù),則有,分別和求導(dǎo),獲得似然方程組,解之,可求得和的估計值為:,。 由正態(tài)分布函數(shù)定義可知,,其中,是正態(tài)分布的均值,是正態(tài)分布的標(biāo)準(zhǔn)差,是標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。由于標(biāo)準(zhǔn)正態(tài)分布函數(shù)是嚴(yán)格單調(diào)上升的,故其反函數(shù)存在,因此,上式可以表示為線性方程形式:。對于一組和的數(shù)據(jù),利用最小二乘法計算該線性方程的回歸系數(shù)和截距,即可求得和的估計值。 貝葉斯分析(Bayes分析)是一種基于貝葉斯理論來預(yù)測事件發(fā)生概率的手法,用于估計正態(tài)分布的參數(shù)(通常是均值和方差)并結(jié)合先驗概率信息進(jìn)行推斷。正態(tài)分布的貝葉斯分析中,使用貝葉斯定理來更新對參數(shù)的先驗信念,并獲得后驗分布。假設(shè)有一組觀測數(shù)據(jù) ,通過這些觀測數(shù)據(jù)來推斷正態(tài)分布的參數(shù)和 。在貝葉斯分析中,引入先驗分布來表示對參數(shù)的初始信念,通常選擇共軛先驗分布作為正態(tài)分布的先驗,對于正態(tài)分布,共軛先驗是具有正態(tài)形式的分布。 具體步驟如下:①選擇先驗分布:選擇正態(tài)分布作為參數(shù)和的共軛先驗。先驗分布可以是均值為,方差為的正態(tài)分布。②計算似然函數(shù):似然函數(shù)表示給定參數(shù)和時,觀測數(shù)據(jù)出現(xiàn)的概率。對于正態(tài)分布,似然函數(shù)可以通過計算觀測數(shù)據(jù)的聯(lián)合概率密度函數(shù)(或取對數(shù))得到。③計算后驗分布:根據(jù)貝葉斯定理,我們可以通過將先驗分布與似然函數(shù)相乘,并進(jìn)行歸一化,得到參數(shù)的后驗分布。后驗分布表示了在給定觀測數(shù)據(jù)的條件下,對參數(shù)的最新信念。④參數(shù)推斷:通過后驗分布,可以計算參數(shù)的點估計值,如后驗均值、后驗中位數(shù)等。 正態(tài)分布的區(qū)間估計用于估計總體參數(shù)(如均值或標(biāo)準(zhǔn)差)的范圍,在正態(tài)分布假設(shè)下,可以使用樣本數(shù)據(jù)來構(gòu)建置信區(qū)間,該區(qū)間給出了總體參數(shù)的估計范圍。設(shè)為來自總體的樣本,為未知參數(shù),設(shè)有兩個統(tǒng)計量和,若對給定的有,則稱區(qū)間為的置信區(qū)間,和分別稱為置信下限和置信上限,稱為置信水平,也稱置信概率或置信度。通常將“的置信水平為的置信區(qū)間”簡稱為“的置信區(qū)間”。 例如對于總體均值的區(qū)間估計,常見的方法是使用樣本均值和標(biāo)準(zhǔn)誤差來構(gòu)建置信區(qū)間。假設(shè)希望構(gòu)建一個95%的置信區(qū)間,那么通常會使用標(biāo)準(zhǔn)正態(tài)分布的臨界值來確定區(qū)間的邊界。通過構(gòu)造抽樣分布,并且抽樣分布符合正態(tài)分布,查找標(biāo)準(zhǔn)正態(tài)概率表可以知道,任何整體分布隨機(jī)變量都有95%的值在總體均值附近1.96個標(biāo)準(zhǔn)差內(nèi),即有95%的概率可以相信區(qū)間內(nèi)包含總體均值,區(qū)間稱為95%的置信區(qū)間。將此區(qū)間擴(kuò)展為如下更具有普遍意義的公式:,式中是顯著性水平,是標(biāo)準(zhǔn)整態(tài)概率分布上側(cè)面積為時的值,下表中展示了常用的置信水平下的值。 正態(tài)分布校驗是一種用于確定數(shù)據(jù)是否符合正態(tài)分布的統(tǒng)計方法。正態(tài)分布校驗的目的是檢查樣本數(shù)據(jù)是否具有正態(tài)(高斯)分布的特征,這在許多統(tǒng)計分析和假設(shè)檢驗中是一個重要的前提。以下是一些常見的正態(tài)分布校驗方法: 直方圖法是一用于初步判斷數(shù)據(jù)分布類型的統(tǒng)計方法,步驟包括排列數(shù)據(jù),分組計算頻率,創(chuàng)建直方圖表示數(shù)據(jù)分布,如果數(shù)據(jù)呈現(xiàn)出兩側(cè)對稱或接近對稱的形態(tài),尤其是直方圖的中點連線對稱,那么數(shù)據(jù)可能符合正態(tài)分布。同理,對數(shù)頻率分布直方圖也可用于對數(shù)正態(tài)分布的初步判斷,但該方法只提供初步分布類型判斷。 P-P(Percent-Percent)正態(tài)概率圖是根據(jù)變量分布累積比和正態(tài)分布累積比生成的圖形,如果數(shù)據(jù)是正態(tài)分布,被檢驗數(shù)據(jù)基本成一條直線。Q-Q(Quantile-Quantile)正態(tài)概率圖則反映了變量分布的分位數(shù)對正態(tài)分布的分位數(shù),如果數(shù)據(jù)點在Q-Q圖上近似地沿著一條直線排列,那么數(shù)據(jù)可能符合正態(tài)分布。如果數(shù)據(jù)點偏離直線,可能表明數(shù)據(jù)不符合正態(tài)分布。兩者有很大的相似性,都可以在對原有數(shù)據(jù)進(jìn)行自然對數(shù)轉(zhuǎn)換、指數(shù)轉(zhuǎn)換等的基礎(chǔ)上來產(chǎn)生正態(tài)概率圖。 Shapiro-Wilk檢驗(夏皮羅-威爾克檢驗)是一種用于判斷數(shù)據(jù)樣本是否符合正態(tài)分布的統(tǒng)計方法,它的基本思想是檢驗數(shù)據(jù)與正態(tài)分布的擬合程度。首先給出假設(shè),零假設(shè)(H0):數(shù)據(jù)樣本來自正態(tài)分布,備擇假設(shè)(H1):數(shù)據(jù)樣本不來自正態(tài)分布;然后使用一個統(tǒng)計量,該統(tǒng)計量基于樣本數(shù)據(jù)的排序值和回歸系數(shù)來評估數(shù)據(jù)是否符合正態(tài)分布;根據(jù)樣本數(shù)據(jù)的排序值和回歸系數(shù),計算Shapiro-Wilk統(tǒng)計量,選擇顯著性水平(可查表獲得對應(yīng)于值的),以確定是否拒絕零假設(shè)。 根據(jù)和,查表得到的臨界值,如果統(tǒng)計量小于等于,則拒絕0假設(shè),表示數(shù)據(jù)不符合正態(tài)分布,否則反之。Shapiro-Wilk檢驗在時可以使用,是基于次序統(tǒng)計量對它們期望值的回歸,它是一個完全樣本的方差分析形式的檢驗,檢驗統(tǒng)計量為樣本次序統(tǒng)計量線性組合的平方與通常的方差估計量的比值。 安德雷·柯爾莫哥洛夫Smirnov檢驗法(科爾莫戈洛夫-斯米爾諾夫檢驗),簡稱K-S檢驗法,用來檢驗樣本來自同一個總體的假設(shè),可以用于樣本容量的條件下檢驗分布是否服從正態(tài)或?qū)?shù)正態(tài)分布,該方法是通過樣本的經(jīng)驗分布函數(shù)和理論分布函數(shù)的比較作擬合優(yōu)度檢驗。 其基本思路是:若對每一個值來說,和擬和程度高,則兩者差異就小,就有理由認(rèn)為樣本數(shù)據(jù)來自具有理論分布的總體。因此,可以利用樣本各觀察值的經(jīng)驗分布函數(shù)值和假設(shè)下的正態(tài)分布函數(shù)值之間最大絕對偏差值作為檢驗統(tǒng)計量。在求出最大絕對偏差值后,再根據(jù)給定的顯著水平及樣本容量,查單樣本K-S檢驗統(tǒng)計量表中臨界值。 若,則差異不顯著,可以認(rèn)為總體的分布符合假設(shè)分布,即屬正態(tài)分布。 定義偏峰度檢驗用到的偏度,峰度,其中為三階矩,為四階矩,為標(biāo)準(zhǔn)差,則正態(tài)分布的偏度為0,峰度為0。如果樣本所代表的分布的偏度不等于0或峰度不等于0,就不是正態(tài)分布,因此,可以通過樣本偏度和峰度是否接近0來判斷數(shù)據(jù)是否服從正態(tài)分布。 從總體為的分布中,抽取容量為的樣本:,則可由樣本矩得到總體偏度和峰度的估計:三階樣本中心距,四階樣本中心距,將其代入偏度和峰度的計算公式,然后觀察這些計算出的值是否接近0,從而判斷樣本數(shù)據(jù)是否符合正態(tài)分布,接近0的偏度值表示數(shù)據(jù)分布接近對稱,而接近0的峰度值表示數(shù)據(jù)分布的峰形適中。 標(biāo)準(zhǔn)正態(tài)分布的左側(cè)分位數(shù)指的是隨機(jī)變量小于某個數(shù)的概率為,如果服從標(biāo)準(zhǔn)正態(tài)分布,則,,如圖所示。同理,標(biāo)準(zhǔn)正態(tài)分布的右側(cè)分位數(shù)指的是隨機(jī)變量大于某個數(shù)的概率為,如果服從標(biāo)準(zhǔn)正態(tài)分布,則,。 因此可知,一般情況下對任何介于之間的實數(shù),標(biāo)準(zhǔn)正態(tài)分布的分位數(shù)把密度曲線下的面積分為兩塊,左側(cè)為,右側(cè)為,稱之為分位數(shù)。這個分位數(shù)也可以通過標(biāo)準(zhǔn)正態(tài)分布表求得,也可直接從標(biāo)準(zhǔn)正態(tài)分布的分位數(shù)表查得。 標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)為,,標(biāo)準(zhǔn)正態(tài)分布表如下。 證明:對于隨機(jī)變量,有 設(shè),則上式可化為 即 利用此定理,可以將一般正態(tài)分布化為標(biāo)準(zhǔn)正態(tài)分布。 定理2:設(shè),當(dāng)時,,特別地,。這個定理說明服從正態(tài)分布的隨機(jī)變量線性函數(shù)仍然服從正態(tài)分布。 證明:當(dāng)時,是嚴(yán)格單增函數(shù),其反函數(shù)為,則 當(dāng)時 綜上: 這正好是的密度函數(shù),定理得證。 正態(tài)分布,也稱為高斯分布,是統(tǒng)計學(xué)中最常見的連續(xù)概率分布之一,正態(tài)分布及其相關(guān)分布在許多領(lǐng)域中都有廣泛的應(yīng)用,與正態(tài)分布相關(guān)的分布包括:卡方分布、t分布、F分布、瑞利分布、柯西分布和對數(shù)正態(tài)分布等。 卡方分布是一種特殊類型的概率分布,它是通過對個獨立同分布的標(biāo)準(zhǔn)正態(tài)隨機(jī)變量的平方和進(jìn)行定義的,稱其為服從自由度為的分布(卡方分布),記為。分布是由正態(tài)分布構(gòu)造而成的一種新的分布,當(dāng)自由度充分大時,分布近似于正態(tài)分布。 t分布是一種概率分布,形狀與正態(tài)分布類似,但其尾部更厚,當(dāng)樣本量較小或總體方差未知時,均值的抽樣分布不再服從正態(tài)分布,t分布可以代替正態(tài)分布進(jìn)行近似計算。t分布的概率密度函數(shù)圖像關(guān)于直線對稱,自由度越大時,其形狀越接近標(biāo)準(zhǔn)正態(tài)分布。 兩個來自正態(tài)分布總體的樣本的方差比值,稱為F值,F(xiàn)分布是在零假設(shè)(總體呈正態(tài)分布,且兩個樣本均為隨機(jī)樣本)成立的情況下F值的分布,通常用于比較兩個總體方差是否顯著不同。F分布的概率密度曲線呈正偏度,其形狀取決于兩個樣本的自由度,自由度越大,越接近正態(tài)分布曲線的形狀。 除上述三大常用相關(guān)分布外,還有瑞利分布、柯西分布和對數(shù)正態(tài)分布等被應(yīng)用于某些特定領(lǐng)域。瑞利分布是一種連續(xù)性概率分布,是區(qū)間上單峰不對稱的曲線,常用于描述低能中子共振間距的分布或雷達(dá)雜波的幅度分布。柯西分布,也被稱為洛倫茲分布,其形狀類似于鐘形曲線,是一種具有肥尾的連續(xù)概率分布。柯西分布沒有均值和方差,可以用于描述受迫共振的微分方程的解或在光譜學(xué)中描述被共振或者其他機(jī)制加寬的譜線形狀。隨機(jī)變量的對數(shù)變換比原始值更容易服從正態(tài)分布,在這種情況下,隨機(jī)變量稱為對數(shù)正態(tài)分布,常用于水文隨機(jī)變量的數(shù)值變換,對數(shù)正態(tài)分布密度函數(shù)曲線是單峰的,且是偏度的。 一般情況下,質(zhì)量檢測誤差服從正態(tài)分布。根據(jù)正態(tài)分布的理論,正態(tài)曲線下區(qū)間內(nèi)的面積為 95.45%,區(qū)間內(nèi)的面積為99.73%。落在兩區(qū)間外的觀測值的概率不到5‰和3‰。所以一般以為中心線,為警戒線, 為控制線,根據(jù)以上的規(guī)定還可以繪制出質(zhì)量控制圖。 根據(jù)正態(tài)分布曲線下的面積規(guī)律,可以估計變量值的頻率或頻數(shù)分布情況。除了常用的估計95%和99%的頻數(shù)分布之外,統(tǒng)計學(xué)家編制了標(biāo)準(zhǔn)正態(tài)分布累積分布函數(shù)表,用以表示橫軸范圍從的面積。在應(yīng)用時,首先將變量轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)變量,然后查閱分布函數(shù)表。由于正態(tài)分布是對稱的,當(dāng)大于0時,其面積可以通過計算獲得。例如,區(qū)間的面積可以先計算的面積,然后用1減去該面積,即可得到的面積。這樣,將變量值轉(zhuǎn)換為值后,就能表示從對應(yīng)的曲線范圍內(nèi)值的分布比例。 醫(yī)學(xué)研究中常需要確定醫(yī)學(xué)參考值范圍,這是為了確定某項生理指標(biāo)的正常波動范圍。醫(yī)學(xué)參考值范圍指的是特定人群(經(jīng)過體格檢查的一般健康人員,排除了可能受到疾病和其他相關(guān)因素影響的人群)的生理、生化指標(biāo)以及組織代謝產(chǎn)物的波動范圍。通常情況下,我們會選擇該人群中某項醫(yī)學(xué)指標(biāo)的95%范圍作為醫(yī)學(xué)參考值的界限。在使用百分位數(shù)法時,雙側(cè)95%的醫(yī)學(xué)參考值范圍通常表示為,適用于非正態(tài)分布的數(shù)據(jù)。 而對于正態(tài)分布的數(shù)據(jù),可以根據(jù)正態(tài)分布的規(guī)律來處理醫(yī)學(xué)參考值范圍的估計。正態(tài)分布法的基本原理是利用正態(tài)分布曲線下的面積分布規(guī)律來估計樣本數(shù)據(jù)的頻數(shù)分布,從而推斷醫(yī)學(xué)參考值的范圍。通常如果該指標(biāo)過高或過低都屬于不正常,正態(tài)分布的數(shù)據(jù)在均值附近的95%范圍內(nèi),通常可以使用以下方式估計雙側(cè)醫(yī)學(xué)參考值范圍:雙側(cè)醫(yī)學(xué)參考值范圍 = 均值 ± 1.96倍標(biāo)準(zhǔn)差。這一估計方法基于正態(tài)分布的性質(zhì),其中數(shù)據(jù)在距離均值1.96倍標(biāo)準(zhǔn)差的范圍內(nèi)概率約為95%。因此,對于正態(tài)分布的數(shù)據(jù),我們可以使用上述公式來估計醫(yī)學(xué)參考值范圍。 參考資料 >發(fā)展歷程
起源
持續(xù)發(fā)展
逐漸成熟
定義
概率密度函數(shù)
累積分布函數(shù)
矩母函數(shù)(矩生成函數(shù))
特征函數(shù)
數(shù)字特征
均值
標(biāo)準(zhǔn)差
偏度
峰度
相關(guān)性質(zhì)
導(dǎo)數(shù)
矩和累積量
原點矩和中心矩
累積量
最大熵
標(biāo)準(zhǔn)偏差
定義
應(yīng)用(3σ原則)
無限可分性
實例
中心極限定理
與正態(tài)分布的聯(lián)系
列維-林德伯格中心極限定理
棣莫弗-拉普拉斯中心極限定理
參數(shù)估計
概述
統(tǒng)計學(xué)概念
統(tǒng)計量
樣本均值與方差
點估計
矩估計
最大似然估計
最小二乘估計
貝葉斯估計
區(qū)間估計
正態(tài)分布校驗
圖示法
直方圖法
P-P圖和Q-Q圖法
正態(tài)性檢驗
Shapiro-Wilk檢驗
Kolmogorov-Smirnov檢驗
偏峰度檢驗
概率密度計算方法
正態(tài)分布分位數(shù)
標(biāo)準(zhǔn)正態(tài)分布表
常用定理
相關(guān)分布
相關(guān)應(yīng)用
質(zhì)量檢測控制
估計變量的頻數(shù)范圍
制定醫(yī)學(xué)參考值范圍