雷火电竞app,雷火体育入口,雷火竞技最新入口

來源：互聯(lián)網(wǎng)

正態(tài)分布（Normal distribution），又稱為常態(tài)分布或高斯分布，通常記作，是非常重要的概率分布，在統(tǒng)計學(xué)領(lǐng)域具有重要影響。正態(tài)隨機(jī)變量的概率密度函數(shù)定義為，式中，是的數(shù)學(xué)期望，是的方差；當(dāng)參數(shù)，時，即時，則稱服從標(biāo)準(zhǔn)正態(tài)分布，相應(yīng)的概率密度函數(shù)記為$\varphi(x)=\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}},-\infty

正態(tài)分布的概念最早由法國數(shù)學(xué)家亞伯拉罕·棣莫弗（A. D. Moivre）于1733年提出，但他沒有從統(tǒng)計學(xué)的角度考慮正態(tài)分布的意義并將其用在誤差分析中。在其之后，高斯（C. F. Gauss）率先提出了“正態(tài)誤差”的理論，并和皮埃爾-西蒙·拉普拉斯（P-S. 皮埃爾-西蒙·拉普拉斯）一起研究了正態(tài)分布的性質(zhì)。

正態(tài)分布的概率密度函數(shù)曲線呈鐘形，因此人們又經(jīng)常稱之為鐘形曲線（類似于寺廟里的大鐘，因此得名）。正態(tài)分布作為連續(xù)分布有著良好的統(tǒng)計學(xué)性質(zhì)，有概率密度、累積分布、矩母和特征函數(shù)表達(dá)式，有期望（均值）、方差、偏度和峰度等數(shù)字特征存在。中心極限定理指出，在特定條件下，如果是獨立分布的隨機(jī)變量，它們具有相同的分布，且有有限的均值和方差，則這些樣本的平均值也是一個隨機(jī)變量，其分布隨著樣本數(shù)量的增加而收斂于正態(tài)分布。因此，許多與獨立過程總和有關(guān)的物理量，例如測量誤差，通常可被近似為正態(tài)分布。

在現(xiàn)實世界中，許多自然和社會現(xiàn)象如考試成績和人體身高等，都近似遵循正態(tài)分布。這種分布是統(tǒng)計分析和概率論中的核心概念，廣泛應(yīng)用于諸如質(zhì)量控制、頻數(shù)估計以及制定醫(yī)學(xué)參考標(biāo)準(zhǔn)等領(lǐng)域。

發(fā)展歷程

起源

正態(tài)分布，最初由法國數(shù)學(xué)家棣莫弗（A. D. Moivre）在1733年引入，最初的探索并未深入其在統(tǒng)計學(xué)上的應(yīng)用，尤其是誤差分析方面。他運用正態(tài)分布的近似性質(zhì)，計算了與拋硬幣試驗中的隨機(jī)事件相關(guān)的概率。當(dāng)時，正態(tài)分布被稱為指數(shù)鐘形曲線，并作為二項分布當(dāng)?shù)慕品植肌?/p>

許多天文學(xué)家開始了尋找誤差分布曲線的嘗試，其中，1755年，英國天文學(xué)家托馬斯·喬治·蓋洛德·辛普森（T. Simpson）率先走出了有意義的一步，進(jìn)行了關(guān)于誤差理論的工作，但辛普森的工作沒有涉及一般誤差概率理論，而是在誤差滿足某種特定的分布的前提下，專注于計算平均誤差的分布，從而證明了在某種概率意義下，平均誤差小于個別誤差，首次從概率論角度嚴(yán)格證實了算術(shù)平均的優(yōu)越性。

持續(xù)發(fā)展

直到1809年，德國數(shù)學(xué)家卡爾·弗里德里希·高斯（C. F. Gauss）提出了“正態(tài)誤差”的理論，正態(tài)分布才展現(xiàn)了其應(yīng)用價值，被廣泛認(rèn)可為一種概率分布，此后，正態(tài)分布也稱為高斯分布。1823年，高斯出版了他的專著《Theoria combinationis observationum erroribus minimis obnoxiae》，在這本書中，他引入了一些重要的統(tǒng)計概念，包括非線性加權(quán)最小二乘法、最大似然法等，并且在其中對正態(tài)分布進(jìn)行了深入研究。

盡管高斯最早提出“正態(tài)誤差”理論，但皮埃爾-西蒙·拉普拉斯也做出了顯著的貢獻(xiàn)。1774年，他首次探討了合并多個觀測值的問題，并導(dǎo)出了拉普拉斯分布，1782年，他首次計算了積分的值，為正態(tài)分布提供了規(guī)范化常數(shù)。拉普拉斯在1810年發(fā)表的論文中，論述了從包含高次項的公式的近似估計方法中導(dǎo)出關(guān)于減少誤差的中心極限定理，證明了中心極限定理。隨后，在1812年，拉普拉斯先后考慮多種分布情形，在《分析概率論》給出了亞伯拉罕·棣莫弗—拉普拉斯中心極限定理的理論證明，他擴(kuò)展了棣莫弗的理論，指出二項分布可用正態(tài)分布逼近，突顯了正態(tài)分布的理論重要性。

1809年，愛爾蘭裔美國數(shù)學(xué)家羅伯特·阿德里安（R. Adrain）在所著論文《觀測誤差的概率研究》中，也為誤差法則提出兩項力證，幾乎同時獨立于高斯發(fā)表了兩個有見地但有缺陷的正態(tài)概率定律推導(dǎo)，但是他的工作并沒有引起人們過多的關(guān)注，也沒有影響到誤差論和相關(guān)問題的發(fā)展。直到1871年，阿貝（Abbe）發(fā)表論文《最小二乘法的歷史注釋》，這才引起人們對艾德里安關(guān)于誤差理論工作的關(guān)注。

逐漸成熟

在19世紀(jì)中葉，詹姆斯·麥克斯韋證明了正態(tài)分布不僅是一種方便的數(shù)學(xué)工具，而且還可能發(fā)生在自然現(xiàn)象中：“ 在某個方向上解析的速度介于和之間的粒子數(shù)量為：。19世紀(jì)中葉至末期，比利時統(tǒng)計學(xué)家朗伯·阿道夫·雅克·凱特勒（Quetelet）和英國生物統(tǒng)計學(xué)家弗朗西斯·高爾頓（F. Galton）等人在社會、經(jīng)濟(jì)、遺傳學(xué)等領(lǐng)域的工作將概率論應(yīng)用擴(kuò)展到更廣泛的范圍。凱特勒在自然科學(xué)和社會科學(xué)中運用概率論（包括正態(tài)分布），成為首位將概率論引入這兩個領(lǐng)域的人，而高爾頓則首創(chuàng)將統(tǒng)計方法引入生物學(xué)，設(shè)計了高爾頓板以研究隨機(jī)現(xiàn)象和驗證中心極限定理。

自引入以來，正態(tài)分布已經(jīng)有了許多不同的名稱：誤差定律、拉普拉斯第二定律、高斯定律等。其中，20世紀(jì)英國統(tǒng)計學(xué)家卡爾·皮爾遜（K. Pearson）對正態(tài)分布的研究和推廣起到了關(guān)鍵作用，他不僅使得正態(tài)分布這個名稱變得流行，而且是第一個利用標(biāo)準(zhǔn)差來量化和表述正態(tài)分布的人。后來，羅納德·費雪（R. A. Fisher）于1915年在皮爾森的基礎(chǔ)上加入了位置參數(shù)，進(jìn)一步發(fā)展了現(xiàn)代通用的正態(tài)分布表述形式，這些貢獻(xiàn)幫助了正態(tài)分布在統(tǒng)計學(xué)和相關(guān)領(lǐng)域的廣泛應(yīng)用。

定義

概率密度函數(shù)

一維隨機(jī)變量的概率密度函數(shù)（Probability Density 函數(shù)，PDF）定義為，式中，是隨機(jī)變量的數(shù)學(xué)期望（均值），是的方差，且，。顯然，單變量情況下的概率密度函數(shù)由參數(shù)和就可以完全確定，為簡單起見常將相應(yīng)的概率密度函數(shù)簡記為或，讀作服從，或服從正態(tài)分布。

當(dāng)參數(shù)，時，即時，則稱服從標(biāo)準(zhǔn)正態(tài)分布，相應(yīng)的概率密度函數(shù)定義為。正態(tài)分布隨機(jī)變量概率密度函數(shù)都滿足：，。對于一般形式的正態(tài)分布，有。

累積分布函數(shù)

累積分布函數(shù)（Cumulative Distribution 函數(shù)，CDF），又叫分布函數(shù)，是概率密度函數(shù)的積分。根據(jù)連續(xù)型隨機(jī)變量分布函數(shù)的定義，一般正態(tài)分布的分布函數(shù)為：，正態(tài)分布函數(shù)是一個增函數(shù)，而且有，，。

特別地，當(dāng)參數(shù)，時，標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)為：，則有。

設(shè)，且為標(biāo)準(zhǔn)正態(tài)分布函數(shù)，則：，，。

矩母函數(shù)（矩生成函數(shù)）

對于隨機(jī)變量，若數(shù)學(xué)期望存在，則對任意實數(shù)，其矩母函數(shù)（Moment Generating 函數(shù)，MGF，又稱矩生成函數(shù)）定義為，記為。對于連續(xù)分布，其中的期望是；對于離散分布，其中的期望是。若隨機(jī)變量服從，按照矩母函數(shù)及其數(shù)學(xué)期望的定義公式，可以寫出一般正態(tài)分布的矩母函數(shù)為，其中，標(biāo)準(zhǔn)正態(tài)分布的參數(shù)、，代入上式，得到標(biāo)準(zhǔn)正態(tài)分布的矩母函數(shù)為。

特征函數(shù)

為了定義特征函數(shù)，須先引進(jìn)復(fù)隨機(jī)變量的概念，設(shè)和都是樣本空間上的實隨機(jī)變量，則稱為復(fù)隨機(jī)變量，其中。復(fù)隨機(jī)變量的數(shù)學(xué)期望為，若是（實）隨機(jī)變量，則當(dāng)實數(shù)取定時，為復(fù)隨機(jī)變量。

因此，設(shè)是隨機(jī)變量，則稱實變量的復(fù)值函數(shù)為隨機(jī)變量的特征函數(shù)，或稱為相應(yīng)分布的特征函數(shù)（Characteristic 函數(shù)）。

若隨機(jī)變量服從，按照特征函數(shù)定義公式，則一般正態(tài)分布的特征函數(shù)為，其中，標(biāo)準(zhǔn)正態(tài)分布的參數(shù)、，代入上式，得到標(biāo)準(zhǔn)正態(tài)分布的特征函數(shù)為。

數(shù)字特征

均值

正態(tài)分布概率密度函數(shù)是一條對稱的鐘形曲線（這一形狀類似于寺廟中的大鐘，因此也常被稱為鐘形曲線），中間高，兩邊低，曲線位于x軸的上方，且以均值所在直線為對稱軸，左右完全對稱，隨著x的增大與減小，曲線無限趨于x軸，正態(tài)分布的期望、均值、中位數(shù)和眾數(shù)相同，均等于μ。

均值代表正態(tài)分布的集中趨勢位置，通常被稱為位置參數(shù)。當(dāng)取值為均數(shù)時，位于曲線的單峰的最高點，即此時的值最大，這表明在附近的概率密度最大；當(dāng)?shù)娜≈惦x開均數(shù)時，曲線的高度降低，即概率密度減小，且值越遠(yuǎn)離均數(shù)，曲線的高度就越低，即概率密度越小。

標(biāo)準(zhǔn)差

標(biāo)準(zhǔn)差是描述正態(tài)分布數(shù)據(jù)分布離散程度的參數(shù)，通常被稱為尺度參數(shù)。越大，數(shù)據(jù)分布越分散，曲線越扁平；越小，數(shù)據(jù)分布越集中，曲線越瘦高。固定的值不變，改變的值，則曲線延軸平移，但其形狀不改變；固定的值不變，改變的值，則曲線的位置不變，但隨著的減小，曲線變得陡峭。

偏度

偏度是用來衡量統(tǒng)計數(shù)據(jù)分布的偏斜方向和程度的指標(biāo)，也稱偏態(tài)、偏態(tài)系數(shù)，是統(tǒng)計數(shù)據(jù)分布非對稱程度的數(shù)字特征。偏度描述了概率分布密度曲線相對于平均值的不對稱性，具體而言，偏度反映了密度函數(shù)曲線尾部的相對長度，偏度的計算公式為：。

當(dāng)偏度為0時，表示數(shù)據(jù)分布完全對稱，左右尾部長度相等，例如正態(tài)分布的偏度即為0。當(dāng)數(shù)據(jù)分布呈現(xiàn)負(fù)偏時，意味著數(shù)據(jù)的左側(cè)尾部較長，即較多的數(shù)據(jù)值偏離了平均值向右側(cè)集中；而正偏則表示數(shù)據(jù)的右側(cè)尾部較長，即較多的數(shù)據(jù)值偏離了平均值向左側(cè)集中。

峰度

峰度是描述數(shù)據(jù)分布形態(tài)陡緩程度的統(tǒng)計量，峰度越大，數(shù)據(jù)分布越陡峭，尾部越厚；峰度越小，數(shù)據(jù)分布越平滑，偏度的計算公式為：。

正態(tài)分布的峰度為3，很多情況下，為方便計算，一般將正態(tài)分布的峰度值減去3，這樣使得其峰度變?yōu)?，更方便進(jìn)行比較。當(dāng)數(shù)據(jù)的峰度為0時，表示數(shù)據(jù)分布的陡緩程度與正態(tài)分布相同；峰度大于0，表示數(shù)據(jù)分布比正態(tài)分布更陡峭，而峰度小于0，表示數(shù)據(jù)分布比正態(tài)分布更平坦；峰度的絕對值越大，表示數(shù)據(jù)分布形態(tài)與正態(tài)分布的差異越大。

實例

中心極限定理

與正態(tài)分布的聯(lián)系

中心極限定理指出，當(dāng)一個量受到相互獨立的隨機(jī)因素的綜合影響而每個隨機(jī)因素所起的作用不大時，該量的分布一般服從或近似服從正態(tài)分布。實際的經(jīng)濟(jì)問題均通過大樣本來估計總體，總體的分布已知不是必要的解題條件，只要當(dāng)樣本容量很大，隨機(jī)變量的和總是近似服從正態(tài)分布。這說明，如果從任意分布的總體中抽取足夠多的樣本，樣本均值會漸近地接近總體均值，即從任意分布的總體中抽取均值的樣本分布漸近地接近正態(tài)分布。

中心極限定理是統(tǒng)計學(xué)中的重要定理，對于任何分布，只要其存在期望和方差，則當(dāng)足夠大時，樣本均值近似服從期望為、方差為的正態(tài)分布。中心極限定理與正態(tài)分布密切相關(guān)，它是統(tǒng)計學(xué)中處理大樣本的一個重要工具，說明了正態(tài)分布的重要性。其中，常見的中心極限定理有列維-林德伯格（Levy-Lindberg）中心極限定理和棣莫弗-拉普拉斯（De Moivre-皮埃爾-西蒙·拉普拉斯）中心極限定理等。

列維-林德伯格中心極限定理

設(shè)一組隨機(jī)變量相互獨立且同分布，若，，，則對于任意實數(shù)，有，其中是標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)，該定理是獨立同分布情形下的中心極限定理，也稱為列維-林德伯格（Levy-Lindberg）中心極限定理，這個定理的直觀意義是，當(dāng)足夠大時，可以近似地認(rèn)為。

棣莫弗-拉普拉斯中心極限定理

設(shè)隨機(jī)變量是一個獨立同分布的隨機(jī)變量序列，且每個都服從分布，則對任意一個實數(shù)，總有，該定理被稱為亞伯拉罕·棣莫弗皮埃爾-西蒙·拉普拉斯中心極限定理（De Moivre-Laplace）。由二項分布的可加性知道，，因此概率的值理論上是可以精確算出的，但是，實際問題中當(dāng)較大時，計算并不方便。

由泊松定理和亞伯拉罕·棣莫弗皮埃爾-西蒙·拉普拉斯中心極限定理推得，如果隨機(jī)變量，那么當(dāng)較大時，可以利用正態(tài)分布近似求得概率。對于泊松分布，當(dāng)參數(shù)λ較大時，可以使用均值為λ和方差為λ的正態(tài)分布進(jìn)行近似。另外，對，，仍用上面的算式來近似，因為當(dāng)較大時，、的值很小，可以忽略不計；當(dāng)時，認(rèn)為；當(dāng)時，認(rèn)為。

參數(shù)估計

概述

參數(shù)估計是數(shù)理統(tǒng)計學(xué)重要內(nèi)容之一，在實際問題中，總體的數(shù)字特征或分布通常是未知的。即使知道總體的分布形式，例如正態(tài)分布或泊松分布，其中的參數(shù)也是未知的。因此，需要通過樣本來估計總體的分布函數(shù)、分布中的未知參數(shù)或數(shù)字特征，這樣就產(chǎn)生了統(tǒng)計估計問題。

參數(shù)估計的參數(shù)是指總體分布中的未知參數(shù)，例如，在正態(tài)分布中、未知，是需要估計的參數(shù)。如果已知總體的分布函數(shù)為其中參數(shù)（一維或多維）是未知的，由抽取的隨機(jī)樣本所提供的信息，建立樣本的函數(shù)（即統(tǒng)計量）來對未知參數(shù)作出估計并討論估計量“最佳”準(zhǔn)則的統(tǒng)計問題，稱為參數(shù)估計。從估計形式看，可分為點估計與區(qū)間估計兩大類，其常用的方法有矩估計、最小二乘估計和極大似然法等。

統(tǒng)計學(xué)概念

統(tǒng)計量

統(tǒng)計量是只與樣本有關(guān)、不含任何未知參數(shù)的函數(shù)，設(shè)為取自總體的一個樣本，樣本的函數(shù)為，若中不直接包含總體分布中的任何未知參數(shù)，則稱為統(tǒng)計量。

在抽樣前，統(tǒng)計量是一個隨機(jī)變量，在抽樣后得到的是一次樣本觀測值，這些是已經(jīng)測得的，可以直接用于計算的數(shù)字，代入構(gòu)造好的統(tǒng)計量中，則所得統(tǒng)計量的觀察值是統(tǒng)計量的一次觀測值，它是一個可以由數(shù)據(jù)算得的實數(shù)。

樣本均值與方差

設(shè)為取自總體的一個樣本，稱為樣本均值，它反映了樣本各分量取值的平均狀態(tài)，是對樣本位置特征的一個刻畫，可作為總體均值的一個近似值；為樣本方差，它反映了樣本中各分量取值的離散程度，可用來作為總體方差的一個近似值；為樣本標(biāo)準(zhǔn)差。它們的觀測值分別為：，;。

點估計

矩估計

設(shè)隨機(jī)變量，則總體的一階、二階原點矩，有，。樣本的一階、二階原點矩，有，，令，，聯(lián)立方程組，可得均值和方差的矩估計，分別為：，。

最大似然估計

由上述正態(tài)分布概率密度函數(shù)，可得，正態(tài)分布的似然函數(shù)為，兩邊取對數(shù)，則有，分別和求導(dǎo)，獲得似然方程組，解之，可求得和的估計值為：，。

最小二乘估計

由正態(tài)分布函數(shù)定義可知，，其中，是正態(tài)分布的均值，是正態(tài)分布的標(biāo)準(zhǔn)差，是標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)。由于標(biāo)準(zhǔn)正態(tài)分布函數(shù)是嚴(yán)格單調(diào)上升的，故其反函數(shù)存在，因此，上式可以表示為線性方程形式：。對于一組和的數(shù)據(jù)，利用最小二乘法計算該線性方程的回歸系數(shù)和截距，即可求得和的估計值。

貝葉斯估計

貝葉斯分析（Bayes分析）是一種基于貝葉斯理論來預(yù)測事件發(fā)生概率的手法，用于估計正態(tài)分布的參數(shù)（通常是均值和方差）并結(jié)合先驗概率信息進(jìn)行推斷。正態(tài)分布的貝葉斯分析中，使用貝葉斯定理來更新對參數(shù)的先驗信念，并獲得后驗分布。假設(shè)有一組觀測數(shù)據(jù) ，通過這些觀測數(shù)據(jù)來推斷正態(tài)分布的參數(shù)和。在貝葉斯分析中，引入先驗分布來表示對參數(shù)的初始信念，通常選擇共軛先驗分布作為正態(tài)分布的先驗，對于正態(tài)分布，共軛先驗是具有正態(tài)形式的分布。

具體步驟如下：①選擇先驗分布：選擇正態(tài)分布作為參數(shù)和的共軛先驗。先驗分布可以是均值為，方差為的正態(tài)分布。②計算似然函數(shù)：似然函數(shù)表示給定參數(shù)和時，觀測數(shù)據(jù)出現(xiàn)的概率。對于正態(tài)分布，似然函數(shù)可以通過計算觀測數(shù)據(jù)的聯(lián)合概率密度函數(shù)（或取對數(shù)）得到。③計算后驗分布：根據(jù)貝葉斯定理，我們可以通過將先驗分布與似然函數(shù)相乘，并進(jìn)行歸一化，得到參數(shù)的后驗分布。后驗分布表示了在給定觀測數(shù)據(jù)的條件下，對參數(shù)的最新信念。④參數(shù)推斷：通過后驗分布，可以計算參數(shù)的點估計值，如后驗均值、后驗中位數(shù)等。

區(qū)間估計

正態(tài)分布的區(qū)間估計用于估計總體參數(shù)（如均值或標(biāo)準(zhǔn)差）的范圍，在正態(tài)分布假設(shè)下，可以使用樣本數(shù)據(jù)來構(gòu)建置信區(qū)間，該區(qū)間給出了總體參數(shù)的估計范圍。設(shè)為來自總體的樣本，為未知參數(shù)，設(shè)有兩個統(tǒng)計量和，若對給定的有，則稱區(qū)間為的置信區(qū)間，和分別稱為置信下限和置信上限，稱為置信水平，也稱置信概率或置信度。通常將“的置信水平為的置信區(qū)間”簡稱為“的置信區(qū)間”。

例如對于總體均值的區(qū)間估計，常見的方法是使用樣本均值和標(biāo)準(zhǔn)誤差來構(gòu)建置信區(qū)間。假設(shè)希望構(gòu)建一個95%的置信區(qū)間，那么通常會使用標(biāo)準(zhǔn)正態(tài)分布的臨界值來確定區(qū)間的邊界。通過構(gòu)造抽樣分布，并且抽樣分布符合正態(tài)分布，查找標(biāo)準(zhǔn)正態(tài)概率表可以知道，任何整體分布隨機(jī)變量都有95%的值在總體均值附近1.96個標(biāo)準(zhǔn)差內(nèi)，即有95%的概率可以相信區(qū)間內(nèi)包含總體均值，區(qū)間稱為95%的置信區(qū)間。將此區(qū)間擴(kuò)展為如下更具有普遍意義的公式：，式中是顯著性水平，是標(biāo)準(zhǔn)整態(tài)概率分布上側(cè)面積為時的值，下表中展示了常用的置信水平下的值。

正態(tài)分布校驗

正態(tài)分布校驗是一種用于確定數(shù)據(jù)是否符合正態(tài)分布的統(tǒng)計方法。正態(tài)分布校驗的目的是檢查樣本數(shù)據(jù)是否具有正態(tài)（高斯）分布的特征，這在許多統(tǒng)計分析和假設(shè)檢驗中是一個重要的前提。以下是一些常見的正態(tài)分布校驗方法：

圖示法

直方圖法

直方圖法是一用于初步判斷數(shù)據(jù)分布類型的統(tǒng)計方法，步驟包括排列數(shù)據(jù)，分組計算頻率，創(chuàng)建直方圖表示數(shù)據(jù)分布，如果數(shù)據(jù)呈現(xiàn)出兩側(cè)對稱或接近對稱的形態(tài)，尤其是直方圖的中點連線對稱，那么數(shù)據(jù)可能符合正態(tài)分布。同理，對數(shù)頻率分布直方圖也可用于對數(shù)正態(tài)分布的初步判斷，但該方法只提供初步分布類型判斷。

P-P圖和Q-Q圖法

P-P（Percent-Percent）正態(tài)概率圖是根據(jù)變量分布累積比和正態(tài)分布累積比生成的圖形，如果數(shù)據(jù)是正態(tài)分布，被檢驗數(shù)據(jù)基本成一條直線。Q-Q（Quantile-Quantile）正態(tài)概率圖則反映了變量分布的分位數(shù)對正態(tài)分布的分位數(shù)，如果數(shù)據(jù)點在Q-Q圖上近似地沿著一條直線排列，那么數(shù)據(jù)可能符合正態(tài)分布。如果數(shù)據(jù)點偏離直線，可能表明數(shù)據(jù)不符合正態(tài)分布。兩者有很大的相似性，都可以在對原有數(shù)據(jù)進(jìn)行自然對數(shù)轉(zhuǎn)換、指數(shù)轉(zhuǎn)換等的基礎(chǔ)上來產(chǎn)生正態(tài)概率圖。

正態(tài)性檢驗

Shapiro-Wilk檢驗

Shapiro-Wilk檢驗（夏皮羅-威爾克檢驗）是一種用于判斷數(shù)據(jù)樣本是否符合正態(tài)分布的統(tǒng)計方法，它的基本思想是檢驗數(shù)據(jù)與正態(tài)分布的擬合程度。首先給出假設(shè)，零假設(shè)（H0）：數(shù)據(jù)樣本來自正態(tài)分布，備擇假設(shè)（H1）：數(shù)據(jù)樣本不來自正態(tài)分布；然后使用一個統(tǒng)計量，該統(tǒng)計量基于樣本數(shù)據(jù)的排序值和回歸系數(shù)來評估數(shù)據(jù)是否符合正態(tài)分布；根據(jù)樣本數(shù)據(jù)的排序值和回歸系數(shù)，計算Shapiro-Wilk統(tǒng)計量，選擇顯著性水平（可查表獲得對應(yīng)于值的），以確定是否拒絕零假設(shè)。

根據(jù)和，查表得到的臨界值，如果統(tǒng)計量小于等于，則拒絕0假設(shè)，表示數(shù)據(jù)不符合正態(tài)分布，否則反之。Shapiro-Wilk檢驗在時可以使用，是基于次序統(tǒng)計量對它們期望值的回歸，它是一個完全樣本的方差分析形式的檢驗，檢驗統(tǒng)計量為樣本次序統(tǒng)計量線性組合的平方與通常的方差估計量的比值。

Kolmogorov-Smirnov檢驗

安德雷·柯爾莫哥洛夫Smirnov檢驗法（科爾莫戈洛夫-斯米爾諾夫檢驗），簡稱K-S檢驗法，用來檢驗樣本來自同一個總體的假設(shè)，可以用于樣本容量的條件下檢驗分布是否服從正態(tài)或?qū)?shù)正態(tài)分布，該方法是通過樣本的經(jīng)驗分布函數(shù)和理論分布函數(shù)的比較作擬合優(yōu)度檢驗。

其基本思路是：若對每一個值來說，和擬和程度高，則兩者差異就小，就有理由認(rèn)為樣本數(shù)據(jù)來自具有理論分布的總體。因此，可以利用樣本各觀察值的經(jīng)驗分布函數(shù)值和假設(shè)下的正態(tài)分布函數(shù)值之間最大絕對偏差值作為檢驗統(tǒng)計量。在求出最大絕對偏差值后，再根據(jù)給定的顯著水平及樣本容量，查單樣本K-S檢驗統(tǒng)計量表中臨界值。若，則差異不顯著，可以認(rèn)為總體的分布符合假設(shè)分布，即屬正態(tài)分布。

偏峰度檢驗

定義偏峰度檢驗用到的偏度，峰度，其中為三階矩，為四階矩，為標(biāo)準(zhǔn)差，則正態(tài)分布的偏度為0，峰度為0。如果樣本所代表的分布的偏度不等于0或峰度不等于0，就不是正態(tài)分布，因此，可以通過樣本偏度和峰度是否接近0來判斷數(shù)據(jù)是否服從正態(tài)分布。

從總體為的分布中，抽取容量為的樣本：，則可由樣本矩得到總體偏度和峰度的估計：三階樣本中心距，四階樣本中心距，將其代入偏度和峰度的計算公式，然后觀察這些計算出的值是否接近0，從而判斷樣本數(shù)據(jù)是否符合正態(tài)分布，接近0的偏度值表示數(shù)據(jù)分布接近對稱，而接近0的峰度值表示數(shù)據(jù)分布的峰形適中。

概率密度計算方法

正態(tài)分布分位數(shù)

標(biāo)準(zhǔn)正態(tài)分布的左側(cè)分位數(shù)指的是隨機(jī)變量小于某個數(shù)的概率為，如果服從標(biāo)準(zhǔn)正態(tài)分布，則，，如圖所示。同理，標(biāo)準(zhǔn)正態(tài)分布的右側(cè)分位數(shù)指的是隨機(jī)變量大于某個數(shù)的概率為，如果服從標(biāo)準(zhǔn)正態(tài)分布，則，。

因此可知，一般情況下對任何介于之間的實數(shù)，標(biāo)準(zhǔn)正態(tài)分布的分位數(shù)把密度曲線下的面積分為兩塊，左側(cè)為，右側(cè)為，稱之為分位數(shù)。這個分位數(shù)也可以通過標(biāo)準(zhǔn)正態(tài)分布表求得，也可直接從標(biāo)準(zhǔn)正態(tài)分布的分位數(shù)表查得。

標(biāo)準(zhǔn)正態(tài)分布表

標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)為，，標(biāo)準(zhǔn)正態(tài)分布表如下。

常用定理

定理1：設(shè)隨機(jī)變量，則。

證明：對于隨機(jī)變量，有

設(shè)，則上式可化為

即

利用此定理，可以將一般正態(tài)分布化為標(biāo)準(zhǔn)正態(tài)分布。

定理2：設(shè)，當(dāng)時，，特別地，。這個定理說明服從正態(tài)分布的隨機(jī)變量線性函數(shù)仍然服從正態(tài)分布。

證明：當(dāng)時，是嚴(yán)格單增函數(shù)，其反函數(shù)為，則

當(dāng)時

綜上：

這正好是的密度函數(shù)，定理得證。

必威电竞|足球世界杯竞猜平台