必威电竞|足球世界杯竞猜平台

相關系數
來源:互聯網

相關系數是最早由統計學家卡爾·皮爾遜設計的統計指標,是研究變量之間線性相關程度的量,一般用字母 r,ρx,y或Corr(X,Y) 表示。由于研究對象的不同,相關系數有多種定義方式,較為常用的是皮爾遜相關系數。

相關表和散布圖可反映兩個變量之間的相互關系及其相關方向,但無法確切地表明兩個變量之間相關的程度。相關系數是用以反映變量之間相關關系密切程度的統計指標。相關系數是按積差方法計算,同樣以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間相關程度;著重研究線性的單相關系數。相關系數 r 是一個無量綱的量,用它來描述 X與Y 的線性相關關系不受單位影響。因此人們通常用相關系數而不用協方差來判斷X與Y 相關程度。形式上可以把相關系數視為“標準化尺度下的協方差”。

需要說明的是,卡爾·皮爾遜相關系數并不是唯一的相關系數,但是最常見的相關系數,無特殊說明時相關系數一般指的都是皮爾遜相關系數,以下解釋都是針對皮爾遜相關系數。

其他常見的相關系數有秩相關系數、組內相關系數、偏相關系數等。依據相關現象之間的不同特征,其統計指標的名稱有所不同。如將反映兩變量間線性相關關系的統計指標稱為相關系數(相關系數的平方稱為判定系數);將反映兩變量間曲線相關關系的統計指標稱為非線性相關系數、非線性判定系數;將反映多元線性相關關系的統計指標稱為復相關系數、復判定系數等。

定義

相關關系是一種非確定性的關系,相關系數是研究變量之間線性相關程度的量。由于研究對象的不同,相關系數有如下幾種定義方式。

簡單相關系數:又叫相關系數或線性相關系數,一般用字母r 表示,用來度量兩個變量間的線性關系

定義式

其中,為X與Y的協方差,Var[X]為X的方差,Var[Y]為Y的方差

復相關系數:又叫多重相關系數。復相關是指因變量與多個自變量之間的相關關系。例如,某種商品的季節性需求量與其價格水平、職工收入水平等現象之間呈現復相關關系。

典型相關系數:是先對原來各組變量進行主成分分析,得到新的線性關系的綜合指標,再通過綜合指標之間的線性相關系數來研究原各組變量間相關關系。偏相關系數:在多要素所構成的系統中,當研究某一個要素對另一個要素的影響或相關程度時,把其他要素的影響視作常數(保持不變),即暫時不考慮其他要素影響,單獨研究兩個要素之間的相互關系的密切程度,所得數值結果為偏相關系數。

性質

這里, ,是一個可以表征 和 之間線性關系緊密程度的量。它具有兩個性質:

(1)

(2)的充要條件是,存在常數a,b,使得

由性質衍生:

a. 相關系數定量地刻畫了 X 和 Y的相關程度,即 越大,相關程度越大;對應相關程度最低;

b. X 和Y 完全相關的含義是在概率為1的意義下存在線性關系,于是 是一個可以表征X 和Y 之間線性關系緊密程度的量。當 較大時,通常說X 和Y相關程度較好;當 較小時,通常說X 和Y相關程度較差;當X和Y不相關,通常認為X和Y之間不存在線性關系,但并不能排除X和Y之間可能存在其他關系。

不相關和獨立

若X和Y不相關, ,通常認為X和Y之間不存在線性關系,但并不能排除X和Y之間可能存在其他關系;若,則X和Y不相關。

若X和Y獨立,則必有,因而X和Y不相關;若X和Y不相關,則僅僅是不存在線性關系,可能存在其他關系,如,X和Y不獨立。

因此,“不相關”是一個比“獨立”要弱的概念。

生活示例

軟件公司在全國有許多代理商,為研究它的財務軟件產品的廣告投入與銷售額的關系,統計人員隨機選擇10家代理商進行觀察,搜集到年廣告投入費和月平均銷售額的數據,并編制成相關表,見表1:

表1 廣告費與月平均銷售額相關表 單位:萬元

參照表1,可計算相關系數如表2:

相關系數為0.9942,說明廣告投入費與月平均銷售額之間有高度的線性正相關關系。

應用

概率論

【例】若將一枚硬幣拋n次,X表示n次試驗中出現正面的次數,Y表示n次試驗中出現反面的次數。計算。

解:由于,則,根據相關系數的性質推論,得。

企業物流

【例】一種新產品上市。在上市之前,公司的物流部需把新產品合理分配到全國的10個倉庫,新品上市一個月后,要評估實際分配方案與之前考慮的其他分配方案中,是實際分配方案好還是其中尚未使用的分配方案更好,通過這樣的評估,可以在下一次的新產品上市使用更準確的產品分配方案,以避免由于分配而產生的積壓和斷貨。表1是根據實際數據所列的數表。

通過計算,很容易得出這3個分配方案中,B的相關系數是最大的,這樣就評估到B的分配方案比實際分配方案A更好,在下一次的新產品上市分配計劃中,就可以考慮用B這種分配方法來計算實際分配方案。

聚類分析

【例】如果有若干個樣品,每個樣品有n個特征,則相關系數可以表示兩個樣品間的相似程度。借此,可以對樣品的親疏遠近進行距離聚類。例如9個小麥品種(分別用表示)的6個性狀資料見表2,作相關系數計算并檢驗。

由相關系數計算公式可計算出6個性狀間的相關系數,分析及檢驗結果見表3。由表3可以看出,冬季分蘗與每穗粒數之間呈現負相關(),即麥冬季分蘗越多,那么每穗的麥仁數越少,其他性狀之間的關系不顯著。

缺點

需要指出的是,相關系數有一個明顯的缺點,即它接近于1的程度與數據組數n相關,這容易給人一種假象。因為,當n較小時,相關系數的波動較大,對有些樣本相關系數的絕對值易接近于1;當n較大時,相關系數的絕對值容易偏小。特別是當n=2時,相關系數的絕對值總為1。因此在樣本容量n較小時,我們僅憑相關系數較大就判定變量x與y之間有密切的線性關系是不妥當的。

參考資料 >

生活家百科家居網