必威电竞|足球世界杯竞猜平台

偏度
來源:互聯網

偏度(Skewness)又稱偏態、偏斜度、偏態系數,是對統計數據分布偏斜程度的度量,是描述分布非對稱程度的數字特征。分布數列中,如果次數分布是完全對稱的,則稱對稱分布;如果次數分布不完全對稱,則稱非對稱分布或偏態分布,偏度有左偏和右偏之分。

偏度最初由卡爾·皮爾遜(Karl Pearson)在1895年提出,皮爾遜在論文中將偏度定義為眾數與均值之間的距離與標準差的比率。1896年,尤爾(Yule G U)進一步提出偏斜曲線常數的分布通常可以被視為非常接近正態。其他統計學研究者如格魯內費爾德(Groeneveld R A)及米登(Meeden G)、西格倫(Seglen P O)、阿諾德(Arnold B C)等人在不同程度上豐富了對偏度的研究。隨著統計學的發展,偏度的研究逐漸與其他統計概念和方法相結合,形成了更加豐富和完善的統計分析體系。

偏度的計算方法有很多,比較常用的是“算術平均數與眾數比較法”及動差法。兩種方法的主要區別在于,前者使用算術平均數、中位數、眾數來測定偏度,后者則使用三階中心動差進行計算。偏度和峰度主要用于檢查樣本的分布是否為正態分布,由此來判斷總體的分布是否接近于正態分布。在實際中一個分布的偏度與峰度皆為0或近似為0時,常認為該分布為正態分布或近似為正態分布。

定義

偏度又稱偏態、偏斜度、偏態系數,是對統計數據分布偏斜程度的度量,是描述分布非對稱程度的數字特征。設隨機變量的前三階矩存在,則如下比值:

稱為的偏度系數,簡稱偏度。當時,稱該分布正偏,又稱右偏;當時,稱該分布為負偏,又稱左偏;偏度系數意味著分布具有一定的對稱性,任意正態分布的偏度皆為0。

簡史

偏度(Skewness)這一概念最初由統計學家卡爾·皮爾遜(Karl Pearson)在1895年提出,皮爾遜在論文中將偏度定義為眾數與均值之間的距離與標準差的比率。1896年,尤爾(Yule G U)在皮爾遜的研究基礎上,采用頻率曲線的處理方法進一步豐富了皮爾遜提出的偏度理論,提出偏斜曲線常數的分布通常可以被視為非常接近正態,或者需要采用一些更復雜的測量方法并給出可能誤差。

此外,其他統計學研究者在不同程度上進一步豐富了對偏度的研究。例如,1984年,格魯內費爾德(Groeneveld R A)及米登(Meeden G)等解決了如何測量連續隨機變量的偏斜程度的問題。1992年,西格倫(Seglen P O)發現,出版的文章被引用度的分布非常偏斜,接近半對數圖中的線性。1996年,阿諾德(Arnold B C)發現了幾種可以用來量化分布的偏斜程度的方法,這些方法基于分布的期望或中位數。隨著統計學的發展,偏度的研究逐漸與其他統計概念和方法相結合,形成了更加豐富和完善的統計分析體系。例如,與偏度與峰度正態分布的聯系相關的研究,為數據分布的全面描述提供了更多工具。

性質

偏度可能存在無窮大或者無法定義的情況。當時,該分布中二階和三階累積量趨于無窮大,無法定義偏度;或者當或時,三階累積量無法定義,故而偏度也無法定義。

計算方法

算術平均數與眾數比較法

算術平均數與眾數比較法是利用算術平均數、中位數與眾數三者之間的關系來測定偏度的方法。對稱分布中,算術平均數、中位數、眾數三者合而為一,所以偏度為零。非對稱分布中,三者分離,算術平均數與眾數分居兩邊,中位數介于二者之間。這時,算術平均數與眾數之間的距離可以作為測定偏態的一個尺度。即為:,這是偏度的絕對量。這個絕對量為正值,則總體為右偏分布,若為負值,則總體為左偏分布。同時算術平均數與眾數之間的距離越大,說明總體次數分布的偏斜程度越大;反之,則說明分布的偏斜程度越小。但是對于不同的分布數列,其偏度絕對量不便于直接對比。為了比較不同的分布數列的偏斜程度,還需要計算偏度的相對數指標,這就是偏態系數。偏態系數是偏度與總體標準差之比,反映分布數列的相對偏斜程度。通常以表示。計算公式為:。

動差法

動差又稱矩,原是物理學中的術語。指的是力與力臂對重心的關系。這與統計學中權數和變量值對平均數的關系很相似。如下圖,這里是將各組標志值視為力臂,各組次數所占比重視為作用于各點的力,則所有的力對原點的一階動差為:上式可稱為原點的一階動差。

統計分析中,多用中心動差來測定次數分布的偏斜程度。由于任何分布的一階中心動差都為零,故不能用來測定偏度。任何離差,經過偶次方后,皆為正值,匯總后不再互相抵消,無法說明左偏或右偏。因此,只可用除一階動差外的奇次方離差計算的動差。對稱分布時,變量值的次數分布圍繞著平均數完全對稱,其中心動差為零;非對稱分布時,等中心動差都不為零,且有正負之值,可以用來測定非對稱分布的偏斜程度。為簡便計算,通常采用三階中心動差作為測定偏態的依據。若以表示偏態系數,則:,又因為,即,故也可以表示為,當時,表明分布數列是對稱分布;當時,表明分布數列是正向偏態(右偏);這時大于算術平均數的標志值分布離散程度大,致使分布曲線尾端拖向右邊,峰部偏向左邊;當時,表明分布數列是負向偏態(左偏);這時小于算術平均數的標志值分布離散程度大,致使分布曲線的尾端拖向左邊,峰部偏向右邊。

計算舉例

甲車間300工人,日產量資料如下表。以該表數據為例,分別用算術平均數與眾數比較法、動差法進行偏度計算。

算術平均數與眾數比較法

根據表中資料計算,計算具體過程如下。計算結果表明甲車間日產量的分布是右偏分布,偏斜程度為0.07。其偏態系數較小,說明工人日產量的眾數接近平均數水平。

在計算偏態系數時,如果公式中的眾數不易求得,可以用平均數中位數推算。如前所述,分布數列在微偏的情況下,采用如下計算過程:

計算結果與用眾數計算的結果非常接近,即工人日產量的分布是右偏分布且偏斜程度較小。

動差法

仍以車間日產量資料表為例,用動差法計算其偏態系數,計算過程如下。

計算結果表明,該分布數列的偏斜程度為0.032,是輕微的右偏分布,與第一種計算方法得到的結論相同。

相關概念

皮爾遜偏度

對于只有一個眾數的情形,常用或做數據偏斜程度的度量,并稱之為卡爾·皮爾遜偏度(Pearson skewness)。皮爾遜偏度具有與偏度類似的性質,有如下經驗結果:數據分布左偏,則<0,并且值越小說明其左偏程度越高;數據分布右偏,則>0,并且值越大,說明其右偏程度越高,數據分布對稱時,顯然=0。

對于斜分布,均值和眾數都落在尾部較長的一邊,因此,均值和眾數的差就可用來度量不對稱性,如果再除以離差,比如標準差,就可得到偏度的無量綱形式:,該式稱為卡爾·皮爾遜第一偏度系數。

如果不用眾數,可以用實驗式,得到:,該式稱為皮爾遜第二偏度系數。

格魯內費爾德和米德恩系數

格魯內費爾德(Groeneveld) 和 米德恩(Meeden) 提出可以作為偏度的替代度量,其中為平均值,為眾數。該表達式在形式上與卡爾·皮爾遜第二偏度系數密切相關。

L矩

霍斯金(Hosking)提出基于矩的偏度和峰度的替代度量,,其中 ,矩能夠以更符合正態性擬合優度檢驗的方式量化與正態分布的偏差。

距離偏度

偏度值為零并不意味著概率分布是對稱的。因此,需要另一種具有此屬性的不對稱度量作為輔助,這種度量稱為距離偏度,用 表示。如果是在維歐幾里德空間中取值的隨機變量,具有有限期望,是X的獨立同分布副本,并且表示歐幾里德空間中的范數,則關于不對稱性的簡單度量位置參數 θ 為,距離偏度表達式如下:

樣本分位數偏度

樣本分位數偏度(Sample quantile kurtosis)指的是把分位數峰度中分位數換成樣本分位數后所得統計量。如樣本四分位偏度、樣本十分位偏度等。以樣本四分位偏度為例,把四分位偏度中的四分位數換成相應樣本四分位數,即得樣本四分位偏度。更一般地,可以推廣至10~90百分位偏度系數。其表達式如下:

峰度

峰度(Kurtosis)亦稱峭度、峰態、峰態系數等,是對統計數據分布陡峭程度的度量。峰度是用四階矩定義的,對于任意一組單峰分布的數據稱為其峰度。其中和分別是數據的四階中心矩和二階中心矩。峰度分為正態峰度、尖頂峰度和平頂峰度,可以證明,對服從正態分布律的數據,峰度等于或接近0。對絕大多數不服從正態分布律的數據,有這樣的經驗結果:當分布曲線較正態分布更加“陡峭”時,>0,并稱為尖頂峰度;當分布曲線較正態分布“平坦”時,<0,并稱為平頂峰度。一般來說,的值越大,則圖形越陡峭;的值越小,則圖形越平坦。

作用

偏度和峰度主要用于檢查樣本的分布是否為正態分布,由此來判斷總體的分布是否接近于正態分布。在實際中一個分布的偏度與峰度皆為0或近似為0時,常認為該分布為正態分布或近似為正態分布。通常假設樣本的分布屬于正態分布,因此需要用偏度和峰度來檢查樣本是否符合正態分布。偏度衡量的是樣本分布的偏斜方向和程度,而峰度衡量的是樣本分布曲線的尖峰程度。由偏度檢驗的正態分布常用于近似描述一些生產與科學實驗中隨機變量的概率分布,還有一些常用的概率分布是直接由正態分布導出的,例如對數正態分布,分布、分布和分布。偏度也適用于假設檢驗,例如檢驗就是基于樣本偏度和樣本峰度的擬合優度正態性檢驗。此外,偏度是一種描述性統計量,可以與直方圖和正態分位數圖結合使用來表征數據或分布,表示分布偏離正態分布的方向和相對大小。偏度還可用于通過柯尼希-費舍爾展開(Cornish-Fisher)獲得分布的近似概率和分位數(例如金融中的風險價值)。

根據中心極限定理,當變量之和接近高斯分布時,其偏度會隨著樣本量的增加而減小,這是因為隨著樣本量的增加,獨立同分布隨機變量之和的三階累積量與二階累積量的比率會下降。

參考資料 >

偏態.中國大百科全書.2024-02-26

樣本偏度系數.中國大百科全書.2024-02-26

描述統計量分析.中國大百科全書.2024-02-26

正態分布.中國大百科全書.2024-02-26

生活家百科家居網