必威电竞|足球世界杯竞猜平台

中位數
來源:互聯網

中位數(Median),又稱中值。指一組觀察值,按大小順序排列,位置居中的變量值 (n為奇數)或位置居中的兩個變量值的均數(n為偶數)。中位數是一個位次上的平均指標。

中位數概念最早出現在六世紀的《塔木德》,但未廣泛流傳。此后中位數在部分著述中被提及,但都沒有明確算法及應用,且并未得到普及。直到1774年,法國數學家皮埃爾-西蒙·拉普拉斯(Pierre-Simon Laplace)明確建議使用中位數作為后驗概率密度函數(PDF)值的標準估計量,以最小化預期誤差。1843年,法國數學家安東尼·庫爾諾(Antoine Augustin Cournot)首次使用中位數(valeur médiane) 一詞來表示將概率分布分成相等的兩半的值。

在一組觀測值的數據中,大于的個數和小于的個數相等;此外,當與某一定值的離差絕對值(也稱絕對離差)之和,以=時為最小。中位數表明總體中標志值小于中位數的單位數和大于中位數的單位數是相等的。用中位數來代表總體的一般水平可以避免受總體中極端標志值的影響,有時更具有代表性。

中位數可以應用于任何定量資料,通常用于不適合用幾何平均值和調和平均值的偏度資料中,尤其適用于包含不完全信息的資料中。其具體可以應用在生活、醫學及計算機等領域,如臨床上隨訪資料經常包含一些中途失訪患者的某些數據;在生活中,中位數能夠反映考試分數集中趨勢的量。

定義

將總體中各單位標志值按大小順序排列,居于中間位置的那個標志值就是中位數:。此外,也有一些人將變量x的中位數表示為med(x)、x?、為μ 1/2或M。當發生這種使用這些或其他中位數符號,都需要在使用時明確定義。

嚴格來說,中位數就是把所有數據按照一定的順序(通常情況下按數值大?。┻M行排列,處于排序后數據最中間位置所對應的那個數值。如果數據個數奇數,中位數就是處在正中心的數值;如果數據個數是偶數,中位數就是處在正中心位置左右兩項數據的平均數。中位數可用來說明社會經濟現象各單位數量標志值的一般水平。

將研究的數列項數(無論是奇數或偶數)加1除以2,即可求得中位數的位置,從而可找出中位數。設未分組的統計數列資料為(已按大小排序)。

當數列項數為奇數時,則第項的標志值為中位數;當數列項數為偶數時,則以與這兩個標志值的和的簡單平均數為中位數。即:

由此,中位數的確定可表述為

簡史

在古代近東地區,科學家們并未普遍采用匯總統計數據,而是傾向于選擇能夠綜合多種現象并提供廣泛一致性的單一值。統計學中的平均值等概念主要是在中世紀和近代早期形成的。中位數這一概念最早見于公元六世紀的《塔木德》中,目的是用于公平地對不同的評價進行分析,但這一概念并未在科學界廣泛流傳。

與現代中位數最接近的祖先是中程數(mid-range),由Al-Biruni提出?,他用這一方法來分析貨幣金屬,盡管其傳播情況不詳。在他的理論提出后,大多數分析者仍然傾向于使用對他們不利的數據值,以免被認為作弊。?直到大航海時代,隨著船舶數量的增加,導航員需要在惡劣天氣中確定緯度,這促使人們對匯總統計方法重新產生興趣,如哈里奧特在《Instructions for Raleigh's Voyage to Guiana, 1595》中推薦了中程數。

而中位數的概念最早可能在英國數學家愛德華·賴特(Edward Wright)于1599年出版的《Certaine Errors in Navigation》一書中提出,他在討論羅盤導航時提到了中位數。賴特傾向于保留所有測量值,并認為中位數更有可能正確,但他沒有提供具體的應用示例,因此很難驗證他是否描述了現代中位數概念。中位數在概率背景下也出現在荷蘭數學家克里斯蒂安·惠更斯(ChristiaanHuygens)的信件中,盡管它被視為不適合精算實踐的統計例子。

1757年,意大利數學家波斯科維奇(Roger Joseph Boscovich)開發了一種基于L 1范數的回歸方法,隱含地表達了基于中位數所推出。1774年,法國數學家皮埃爾-西蒙·拉普拉斯(Pierre-Simon Laplace)明確建議使用中位數作為后驗概率密度函數(PDF)值的標準估計量,以最小化預期誤差。為此,拉普拉斯在1800年代初確定了樣本均值和樣本中位數的分布。十年后,德國約翰·卡爾·弗里德里?!じ咚?/a>(Guass,C.F,)和法國數學家阿德利昂·瑪利·埃·勒讓德(Adrien-Marie Legendre)開發出最小二乘法,因其計算簡便而取代了拉普拉斯的方法。

1843 年, 安東尼·庫爾諾(Antoine Augustin Cournot)是第一個使用中位數(valeur médiane) 一詞來表示將概率分布分成相等的兩半的值的人。德國物理學家古斯塔夫·費希納(Gustav Theodor Fechner)在社會學和心理現象中使用了中位數(Central werth)。它早些時候僅用于天文學和相關領域。古斯塔夫·費希納 (Gustav Fechner)將中位數推廣到正式的數據分析中。且中位數出現在F. Y. 埃奇沃斯(F. Y. Edgeworth)的書中。之后,弗朗西斯·高爾頓 (Francis Galton)在1869年使用了“中最值”(middle-most value),接著在1880年使用了“中值”(media),之后在1881年正式使用了英語術語中位數:median。

整個19世紀,統計學家大力鼓勵使用中位數,因為它直觀清晰。然而,中位數的概念并不像算術平均值那樣適用于高矩理論,而且更難計算。20世紀,中位數作為平均數的概念逐漸被算術平均數所取代。

相關概念

眾數

眾數,是指變量數列中出現次數最多或頻率最大的變量值。用它來作為該變量數列的代表值,反映變量分布的集中趨勢。眾數的次數越多,集中趨勢越顯著。反之,若眾數的次數較少,眾數的代表性就較差。因此,只有集中趨勢顯著時,才能用眾數作為總體的代表值。

平均數

平均數指同質總體某一標志值在一定時間、地點、條件下所達到的一般水平,是總體的代表值。是用來度量統計頻率分布集中趨勢的指標。在次數分布中,多數變量聚集于平均數的周圍因而平均數總是處在頻率分布集中的位置或附近、反映事物的集中趨勢。

方差

方差是用來描述隨機變量取值的分散程度或波動大小的特征數:方差越小,說明隨機變量的取值越集中(集中于均值附近);方差越大,說明隨機變量的取值越分散。標準差是方差的算術平方根,其功能與方差相似,差別在于量綱上。由于標準差與隨機變量本身和其期望有相同的量綱,所以在應用中常用標準差,但標準差的計算必須通過方差獲得。說明:隨機變量的數學期望存在,其方差不一定存在;但當方差存在時,由于總是成立,因此其數學期望一定存在。大多時候使用此公式:。

概率分布中位數

對于任何具有累積分布函數的實值概率分布,中位數被定義為滿足以下不等式的任何實數:,

另一種等價的表達方式是考慮的隨機變量

,并且,這個定義并不要求具有絕對連續分布以及離散分布。

實數集上的任意概率分布至少有一個中位數,但在特殊情況下,可能存在多個中位數。例如當分布在某個區間上恒等為 1/2(概率分布在該區間內為0),則該區間的任何值都是中位數。

樣本中位數

樣本按大小次序排列后處于中間位置上的統計量稱為樣本中位數,常用表示。

設是來自某總體的一個樣本,其次序統計量記為

則。

多元中位數

邊際中位數

邊際中位數是為在一組特定坐標系下定義的向量而設定的概念,它指的是一個向量,其每個分量均為對應的單變量數據集的中位數值。

幾何中位數

幾何學領域,對于位于三維空間內的一系列離散樣本點,幾何中位數被定義為一個特殊位置的點,該點的能夠使其自身到這些樣本點的累積距離達到最小。

幾何中位數的定義為:

幾何中位數不僅在一維數據中通過最小化各點間距離的總和來體現其集中趨勢,在多維空間中同樣適用。幾何中位數有時也被稱作1-中位數、空間中位數、歐幾里得最小點或托里拆利點。此外,幾何中位數對于歐幾里得相似變換(例如平移和旋轉)是等變的。

全方位中位數

當一個數據集在所有坐標系中的邊際中位數都匯聚于同一點時,這一點被稱作“全方位中位數”,這個概念與投票理論相關。對于離散分布而言,當全方位中位數出現時,它與幾何中位數能夠達成一致。

中心點

中心點是中位數對高維歐幾里德空間中數據的推廣。其概念為:在一個位于d維空間中的點集,該集合的中心點是一個點,通過該點的任何一個超平面都將點集劃分為兩個大致相等的部分,其中較小部分的點數至少占總點數的1/(d + 1)。與中位數一樣,中心點可以不是原始數據點集中的任何一個點。任何不含重復元素的非空點集都至少存在一個中心點。

中線

1940年,匈牙利數學家瓦爾德(Abraham Wald)提出了一種處理雙變量數據集的策略,即根據獨立變量x的中位數將數據分為兩部分——一部分包含值低于中位數的數據,另一部分包含值高于中位數的數據。他的方法包括分別計算這兩部分的因變量y和自變量x的平均值,并據此估算連接這兩點的直線斜率,隨后對這條直線進行調整,使其盡可能貼合數據集中的大部分點。

相關定律

詹森中位數不等式

詹森不等式指出,對于具有有限期望的隨機變量,以及對于任何凸函數,都有以下不等式成立:。這個不等式也可以推廣到中位數。

如果函數對于任何滿足以下條件:

而這是應該閉區間(允許單點或空集的退化情況)。則稱任何凸函數是一個函數,但反之則不成立。如果是函數,則。

中值無偏估計量

對于一個確定的一維參數,估計量的分布中位數恰好等于的值,那么這個估計量就被稱為中值無偏估計量。也就是說估計值低估的次數與高估的次數一樣多。這種要求在大多數應用中與均值無偏性同樣有效,并且具有在一對一變換下不變的性質。

性質

性質一

在一組觀測值中,大于的個數和小于的個數相等。是累積頻率為0.50所對應的的值,如下圖1。

這便是在觀測值沒有(或很少)重復的情形下中位數的性質。

當觀測值中重復數值很多,這一性質就不一定成立。如九名學生的成績是95,90,90,85,85,85,85,80,75。那么=85。大于的有3個,小于的有2個,個數不等。

性質二

我們還常用到各與某一定值的離差絕對值(也稱絕對離差)之和。表示為:

得出中位數有這樣的性質:上述絕對離差和以=時為最小。

證明:一組數與某一定值的離差的絕對值之和

按分別討論,以時為最小。

設各按由小到大排列,而

將式分成兩項以脫去絕對值號,證明完畢。

計算

根據中位數的概念,確定中位數的要領是如何準確計算累計次數的中點。由于統計務實中所掌握的計算資料不通,計算中點的方法也有所不同。

第一種方法:由未分組的原始資料確定中位數的方法。要確定未分組資料的中間項,首先把不規則的原始資料按變量大小依次排列,以總次數除以2,求之。計算公式為:。

公式中:代表中位數所在的中間項次,代表總次數。如果總次數是奇數項,則居中間位置的標志值就是中位數。如果總次數是偶數項,則居中間位置的相鄰兩個變量值的算術平均數便是中位數。

第二種方法:由分組資料計算中位數的方法。在掌握分組資料時,中間位置的計算方法如下:

因為分組資料有次數分配,要以累計次數計算。累計次數,可以從變量值最低組開始,稱以下累計法,也可從最高組開始,稱以上累計法。用“以下累計”法確定中位數,亦稱下限法,用“以上累計”法確定中位數,亦稱上限法。根據中位數的性質,下限法與上限法所計算的結果應該一致。但是,如果采用(n+1)/2確定中間位置項來求中位數,則下限法所計得的答案,不能與上限法的答案相等,這就違背了中位數是一固定中間位置值的數學性質。故采用確定中間位置項,才能使這兩種方法的計算結果相同。

兩個計算公式如下:

下限法計算公式:

上限法計算公式:

上述公式式中:代表中位數所在組下限值;代表中位數所在組上限值;

代表中位數所在組前面各組的累計次數(以下累計);

代表中位數所在組后面各組的累計次數(以上累計);

代表中位數所在組的次數;

代表中位數所在組的組距。

推廣

分位數

分位數是中位數的推廣,將數據按從小到大的順序排列后,對于,它的分位點定義為

其中,[]表示的整數部分。

百分位數

百分位數的概念是中位數概念的推廣。

定義:一組個觀測值按數值大小排列如。

處于位置的值稱為第百分位數。

中位數是第 50 百分位數。

第百分位數就是一般順序中第位的數 (如不是整數,取大于它的最小整數)。

應用

中位數的應用一不受極端標志值的影響,二不受開口組的影響。可以應用于任何定量資料,通常用于不適合用幾何平均值和調和平均值的偏度資料中,尤其適用于包含不完全信息的資料中。

醫學領域

中位數在醫學統計學中常用于描述偏態分布資料的集中位置,反映位次居中的觀察值的水平。特別是用于分布不清楚或變量值一端(或兩端)無確定數值。在醫學領域中還可以應用在如臨床上隨訪資料經常包含一些中途失訪患者的某些數據;有時因受儀器和試劑的靈敏度的限制,指標的含量過低時無法準確測,只知道一組數中有幾個數低于某數值。

中位數可創建篩查體制:國內首個篩查中心結合歐洲的篩查質控經驗,提出建立以篩查指標中位數倍數值(multiple of median,)中位數(即)為核心的評價質控體系,該評價體系是唐氏綜合征產前篩查質量控制工作的一個重要而有效的辦法。利用某醫院的發病數據,可以建立中位數回歸模型,能夠預測嚴重急性呼吸綜合征發病病例。

生活領域

中位數反應在生活領域,可以幫助工廠預估生產零件件數。中位數能夠反映考試分數集中趨勢的量,即反映考試分數整體水平的數值。中位數的計算不是由每個分數都參加運算求得,而是由中間位置相鄰的部分分數求故中位數一般不受兩極端分數的影響。當一組考試分數中出現特大或特小兩極端分數時,可用中位數代表整體水平。由于中位數僅利用了考試分數中相對位置的信息,故在充分利用考試分數整體的信息上,中位數不如平均分數。所以在一般情況下,中位數的集中代表性不如平均分數,中位數的應用也不如平均分數廣泛。

計算機領域

中位數還可應用于MATLAB函數中。在Matlab中,median()函數是計算數據的中位數的內置函數,其使用格式為

。

參考資料 >

Edward Wright and His Work. Imago Mundi.2024-03-01

..2024-03-04

Statistical Median.MathWorld.2024-03-01

中位數.術語在線.2024-03-01

How the Average Triumphed Over the Median.Priceonomics.2024-03-01

Talmud and Modern Economics.Jewish American and Israeli Issues.2024-03-01

Modern Economic Theory in the Talmud by Yisrael Aumann.Economics in the Talmud: A Glimpse.2024-03-01

The Development of the Concept of the Best Mean of a Set of Measurements from Antiquity to the Present Day (PDF) (Speech). .131st Annual Meeting of the American Statistical Association. Colorado State University..2024-03-01

The Life and Works of Luca Pacioli (1446/7–1517), Humanist Educator.Abacus.2024-03-01

encyclopediaofmath.org.Encyclopedia of Mathematics.2024-03-04

personal.psu.edu.PennState.2024-03-04

AP Statistics Review - Density Curves and the Normal Distributions.Internet Archive.2024-03-04

..2024-03-04

..2024-03-04

生活家百科家居網