必威电竞|足球世界杯竞猜平台

卡方分布
來源:互聯(lián)網(wǎng)

卡方分布(英文:Chi-square distribution) 是 一種連續(xù)型抽樣分布,統(tǒng)計學(xué)三大抽樣分布之一。

1893 年,卡爾·皮爾遜(Karl Pearson)開始研究一般的偏度分布問題,1893年發(fā)表的是以他名字命名的分布族中的一個特例——皮爾遜Ⅲ型,則后來被叫做“分布族”,或者說自由度不必為整數(shù)的分布族,皮爾遜提出這個分布是為了擬合偏態(tài)()的二項分布。1895年皮爾遜又依據(jù)二項分布和超幾何分布而得到了皮爾遜曲線族,其中就包括了分布。

卡方分布與連續(xù)性隨機變量的分布有關(guān),基于正態(tài)分布,為伽馬分布的特例。卡方分布具有幾個基本性質(zhì),如漸近正態(tài)性、可加性。其檢驗法是統(tǒng)計學(xué)中一種常見的假設(shè)檢驗方法,常用的有方差顯著性檢驗,擬合良好性檢驗獨立性檢驗等。卡方分布在物理、醫(yī)學(xué)、社會等領(lǐng)域具有應(yīng)用價值,如構(gòu)建輻射帶電子蝴蝶狀投擲角分布的優(yōu)化判別方法等。

定義

若一個隨機變量的概率密度為,稱服從自由度為的分布,記作。

歷史沿革

偏態(tài)分布的形成

1893 年,卡爾·皮爾遜(Karl Pearson)開始研究一般的偏態(tài)分布問題,1893年發(fā)表的是以他名字命名的分布族中的一個特例——皮爾遜Ⅲ型,則后來被叫做“分布族”,或者說自由度不必為整數(shù)的分布族。他把這稱為“正態(tài)曲線的推廣形式,具有非對稱的性質(zhì)”這分布的標(biāo)準(zhǔn)形式,皮爾遜提出這個分布是為了擬合偏態(tài)()的二項分布。卡方分布是德國大地測量學(xué)學(xué)者F. 赫爾梅特(Friedrich Robert Helmert)于1875年提出的,他的發(fā)現(xiàn)早于皮爾遜。

在1895年,皮爾遜發(fā)表了其依據(jù)二項分布和超幾何分布而得到結(jié)論,他的曲線族所滿足的微分方程:其中為常數(shù),令這些常數(shù)取種種值,可得到種種不同的解,其全體統(tǒng)稱皮爾遜曲線族。其他統(tǒng)計學(xué)中常見的重要分布,如,,等分布,無不包羅在此族內(nèi)。

卡方檢驗法的歷史

1900年,皮爾遜在《哲學(xué)雜志》上發(fā)表文章:“關(guān)于在相關(guān)變量系統(tǒng)的情況下,給定的偏差系統(tǒng)與可能的偏差系統(tǒng)的標(biāo)準(zhǔn),可以合理地假設(shè)它是由隨機抽樣引起的”(On the criterion that a given system of deviations from the probable in the case of a correlated system of variables issuch that it can be reasonably supposed to have arisen from ran-dom sampling)這篇被認為是假設(shè)檢驗開山之作的論文,其中沒有一處提到“hypothesistesting”這個字眼,它關(guān)心的是建立一個衡數(shù)據(jù)與其“或然值”擬合度的數(shù)指標(biāo)一goodness of fit 現(xiàn)在通譯為擬合優(yōu)度。皮爾遜引進了一個刻劃其偏差的量,證明此量(在理論概率正確時)近似地有分布,利用這個結(jié)果去計算擬合優(yōu)度這是一個介于之間的值,此值越大,則擬合的程度越好,由于皮爾遜把這個反映偏差的量記為,其分布與分布有密切的聯(lián)系,它也常被稱為皮爾遜的統(tǒng)計量。

分布曲線特征

是一種在正態(tài)分布基礎(chǔ)上的衍生總體分布。它的分布型式隨離差的個數(shù)( 即自由度的多少)而異。每個自由度都有一條分布曲線。由于卡方是由平方和構(gòu)成的,所以沒有負值。卡方曲線的高峰隨自由度的增加而逐漸移往右邊。當(dāng)自由度越來越大時,卡方分布趨向兩側(cè)對稱而接近正態(tài)分布。當(dāng)卡方自由度接近時,則為正態(tài)分布。

相關(guān)概念

正態(tài)分布

如果隨機變量的分布密度函數(shù)為,,則稱隨機變量服從參數(shù)為和的正態(tài)分布,和分別稱為位置參數(shù)和尺度參數(shù)。如果,此時稱隨機變量服從標(biāo)準(zhǔn)正態(tài)分布。卡方分布為統(tǒng)計量的分布,是由標(biāo)準(zhǔn)正態(tài)分布構(gòu)成的。

伽馬分布

若非負隨機變量有密度函數(shù)其中 ,則稱服從參數(shù)為的伽馬分布,其中稱作形狀參數(shù),稱作尺度參數(shù),簡記為。

隨機變量,則,根據(jù)伽馬分布的可加性有,由此可見,分布是伽馬分布的特例,故分布的密度函數(shù)為,。

性質(zhì)

期望與方差

證明:由于,故;又由于

所以,從而;再由相互獨立,從而也相互獨立,于是

漸近正態(tài)性

當(dāng)時,分布的極限分布是標(biāo)準(zhǔn)正態(tài)分布,即若,則。

可加性

如果,且與相互獨立,則

證明:因為,根據(jù)分布的定義,可以推知,必有 相互獨立,;使得;必有相互獨立,使得。因為和相互獨立,所以,相互獨立。則是個相互獨立的服從標(biāo)準(zhǔn)正態(tài)分布的隨機變量的平方和,由分布的定義,可知

類似理論

F分布

設(shè)隨機變量, , 與獨立,則稱分布是自由度為與的分布,記為,其中稱為分子自由度,稱為分母自由度。

t分布

設(shè)隨機變量與,獨立且,,則稱的分布為自由度為的分布,記為。

假設(shè)檢驗

卡方檢驗法

卡方檢驗法為利用卡方統(tǒng)計量進行檢驗的方法,常用的有方差顯著性檢驗,擬合良好性檢驗獨立性檢驗等。例如,對總體服從正態(tài)分布其數(shù)學(xué)期望未知時對總體方差進行檢驗設(shè),基本思想如下:是從總體抽取的容量為的隨機樣本,則所采用的檢驗統(tǒng)計量。服從自由度為的分布。上述檢驗為檢驗。其中樣本均值為已知數(shù)給定顯著性水平,要對原假設(shè)進行驗,因為分布是不對稱的,對于給定的顯著性水平,由及。確定臨界值,它們可由分布臨界值表查出。(如下圖)圖中陰影部分表示拒絕域。于是,可用統(tǒng)計量進行成對的檢驗。由樣本觀察值算出的數(shù)值,當(dāng)或時,拒絕原假設(shè),當(dāng)時,接受原假設(shè)。此外,對或也可用上述統(tǒng)計量,取不同的拒絕域進行檢驗。

舉例

某車間生產(chǎn)滾珠,隨機抽取了 50 個產(chǎn)品,測得它們的直徑為(單位:):

15.0 15.8 15.2 15.1 15.9 14.7 14.8 15.5 15.6 15.3 15.1 15.3 15.015.6 15.7 15.8 14.5 14.2 14.9 14.9 15.2 15.0 15.3 15.6

15.1 14.9 14.2 14.6 15.8 15.2 15.9 15.2 15.0 14.9 14.8 14.5 15.1 15.5 15.5 15.1 15.1 15.0 15.3 14.7 14.5 15.5 15.0 14.7 14.6 14.2 則可以通過卡方檢驗法來判斷滾珠直徑是否服從正態(tài)分布。

設(shè)滾珠直徑為,其分布是,待檢驗的假設(shè)是。仍用檢驗法。首先從數(shù)據(jù)出發(fā)找出的最大似然估計是。取,這50個數(shù)據(jù)最小的是14.2,最大的是15.9。取,將7等分,得分點,實數(shù)軸被這些分成了段,利用及正態(tài)分布表可以得到 如下:

現(xiàn)在來計算統(tǒng)計量,為便于檢查,列表如下

,取,查分布表(自由度)得。現(xiàn)在故不能拒絕。

卡方分布表

應(yīng)用領(lǐng)域

物理

卡方分布在物理學(xué)領(lǐng)域存在著廣泛的運用,例如卡方分布函數(shù)可用于構(gòu)建輻射帶電子蝴蝶狀投擲角分布的優(yōu)化判別方法,基于卡方分布函數(shù)的判別模型,通過比較電子觀測通量剖面與模型模擬的理想蝴蝶狀分布剖面的相似性來判別電子蝴蝶狀分布。而使用卡方分布模型對傳統(tǒng)方法的判別結(jié)果進行二次篩選,可以更準(zhǔn)確地挑選出真正符合蝴蝶狀分布特征的通量剖面,進而優(yōu)化對電子蝴蝶狀投擲角分布的判別效果。又或者通過研究鐵磁顆粒分布對磁流變彈性體磁致效應(yīng)的影響,提出了基于卡方分布的磁偶極子模型,推導(dǎo)了磁致剪切模量的表達式。該模型彌補了“均勻分布”假設(shè)的不足且形式簡單,適于工程應(yīng)用,同時可以精確反映出各因素對磁流變彈性體磁致效應(yīng)的影響規(guī)律,其中分布參量和外加磁場強度是影響磁致效應(yīng)的關(guān)鍵因素。

醫(yī)學(xué)

卡方分布在醫(yī)學(xué)中也有著廣泛的用途。例如Meta分析中基于統(tǒng)計量服從卡方分布線性變換的異質(zhì)性方差區(qū)間估計,在異質(zhì)性量化分析的研究中,如果采用的點估計為估計,那么異質(zhì)性方差的可信區(qū)間的可信度主要取決于統(tǒng)計量的分布是否精確。因此,要獲取更加可靠的可信區(qū)間,首先要設(shè)法尋求統(tǒng)計量更為精確的分布。通過修正統(tǒng)計量的分布,即將統(tǒng)計量的分布近似為自由度為的卡方分布的線性變換,通過選取適當(dāng)?shù)淖儞Q系數(shù),保證了統(tǒng)計量具有真實的期望和方差,與異質(zhì)性方差區(qū)間估計法相比,首先提高了統(tǒng)計量分布的精確度,由于異質(zhì)性方差的可信區(qū)間是借助統(tǒng)計量分布來求解的,所以可有效提高可信區(qū)間的可靠程度。

例如在醫(yī)學(xué)實例中,為了評價利尿劑對先兆子癇的治療作用,可通過搜集臨床試驗結(jié)果(如下圖),以比值比的對數(shù)作為效應(yīng)值,效應(yīng)值的抽樣方差估計為。

下圖給出了統(tǒng)計量服從不同分布所得到的可信區(qū)間,其中表示服從自由度為的卡方分布;表示服從自由度為的卡方分布的線性變換。結(jié)果表明,方法比原有的方法具有更加可靠的可信度,而且提高了區(qū)間估計精度。

社會

卡方分布在社會方面也有著廣泛的用途,例如一種基于卡方分布的機場航站樓旅客時空分布預(yù)測方法。其中,包括:S1、基于建筑環(huán)境單元化管控思想,劃分機場航站樓空間單元并進行編碼;S2、基于統(tǒng)計學(xué)原理,建立機場航站樓旅客抵港概率卡方分布模型,表征航站樓旅客抵港概率與航班預(yù)計起飛時間的關(guān)系,并用啟發(fā)式 算法求解模型未知參數(shù);S3、利用流體動力學(xué)思想,將S1劃分的航站樓空間單元視為微元,將S2 建立的旅客抵港概率卡方分布模型作為輸入,計算各空間單元旅客數(shù)量。其僅依據(jù)建筑基本信息與航班動態(tài)信息即可預(yù)測航站樓內(nèi)旅客分布情況,解決了航站樓因空間結(jié)構(gòu)連貫、人員流動劇烈而造成的旅客分布預(yù)測難的問題,為航站樓強化運行保障能力率等提供重要技術(shù)支撐。

參考資料 >

生活家百科家居網(wǎng)