必威电竞|足球世界杯竞猜平台

百分位數
來源:互聯網

統計學術語,如果將一組數據從小到大排序,并計算相應的累計百分位,則某一百分位所對應數據的值就稱為這一百分位的百分位數。可表示為:一組n個觀測值按數值大小排列。如,處于p%位置的值稱第p百分位數。

詳細釋義

說明一:

用99個數值或99個點,將按大小順序排列的觀測值劃分為100個等分,則這99個數值或99個點就稱為百分位數,分別以Pl,P2,…,P99代表第1個,第2個,…,第99個百分位數。第j個百分位數j=1,2…100。式中Lj,fj和CFj分別是第j個百分位數所在組的下限值、頻數和該組以前的累積頻數,Σf是觀測值的數目。

百分位通常用第幾百分位來表示,如第五百分位,它表示在所有測量數據中,測量值的累計頻次達5%。以身高為例,身高分布的第五百分位表示有5%的人的身高小于此測量值,95%的身高大于此測量值。

百分位數則是對應于百分位的實際數值。

說明二:

中位數是第50百分位數。

常用的百分位數有以下三種:第25百分位數又稱第一個四分位數(First Quartile)、下四分位數,用Q1表示;第50百分位數又稱第二個四分位數(Second Quartile),用Q2表示;第75百分位數又稱第三個四分位數(Third Quartile),用Q3表示。若求得第p百分位數為小數,可完整為整數。

分位數是用于衡量數據的位置的量度,但它所衡量的,不一定是中心位置。百分位數提供了有關各數據項如何在最小值與最大值之間分布的信息。對于無大量重復的數據,第p百分位數將它分為兩個部分。大約有的數據項的值比第p百分位數小;而大約有的數據項的值比第p百分位數大。對第p百分位數,嚴格的定義如下。

第p百分位數是這樣一個值,它使得至少有p%的數據項小于或等于這個值,且至少有(100-p)%的數據項大于或等于這個值。

高等院校的入學考試成績經常以百分位數的形式報告。比如,假設某個考生在入學考試中的語文部分的原始分數為54分。相對于參加同一考試的其他學生來說,他的成績如何并不容易知道。但是如果原始分數54分恰好對應的是第70百分位數,我們就能知道大約70%的學生的考分比他低,而約30%的學生考分比他高。

計算步驟

下面的步驟來說明如何計算第p百分位數。

第1步:以遞增順序排列原始數據(即從小到大排列)。

第2步:計算所需百分位數的位置,公式為:i = n * p%,其中n是數據的總數,p是所需的百分位數。

第3步:

l)若i不是整數,將i向上取整。大于i的毗鄰整數即為第p百分位數的位置。

除了以上方法,再介紹另外一種方法,這種方法是spss所用方法,也是SAS所用方法之一。

第一步:將n個變量值從小到大排列,X(j)表示此數列中第j個數。

第二步:計算指數,設(n+1)P%=j+g,j為整數部分,g為小數部分。

第三步:1)當時:P百分位數=X(j);

2)當時:。

應用

在傳統的直線回歸分析中,常采用最小二乘法,同時要求數據的獨立性、正態性及常數方差,即給定自變量時因變量的條件分布為正態分布,且不同時的方差相同。其目的是根據給定的自變量估計因變量的均數及其可信區間或估計因變量的容許區間或參考值范圍等。但醫學研究中,某些資料不滿足上述要求,特別當觀察值中有離群值、強影響點時,所擬合的回歸直線因“遷就”這個些離群值、強影響點而使整體的擬合結果產生不同程度的偏離以致影響了穩定性。再者,當條件分布不是正態或方差不為常數時,亦不宜用最小二乘法估計回歸系數。經過變量變換法的處理雖能解決部分問題,但由于各種變換法的規律難以掌握,對變換效果的估計往往不準。有時甚至經多種嘗試而終未見效。不滿足上述條件時可采用直線回歸方法——百分位數回歸。在大數據時代,百分位數被廣泛用于描述和分析海量數據的分布情況。此外,隨著計算機技術的發展,計算百分位數的方法也變得更加高效和精確。

參考資料 >

百分位數回歸及其應用--《中國衛生統計》1998年06期.中國知網.2021-07-07

生活家百科家居網