方差分析(analysis of 方差,ANOVA),又稱為變異數分析或F檢驗,是檢驗多個總體的均值是否相等的一種統計方法。方差分析的基本原理是將總變異分解成離差平方和及其自由度的若干部分,然后比較這些部分的變異與組內(或誤差)變異,得出統計量值,再根據統計量值的大小確定概率值,做出統計推斷。
方差分析的研究發展可以追溯到多位統計學家的貢獻。皮埃爾-西蒙·拉普拉斯(Laplace)、約翰·卡爾·弗里德里希·高斯(Gauss)、卡爾·皮爾遜(Pearson)和萊克西斯(Lexis)等多位科學家的研究發現為此提供了大量理論基礎和重要參考。1876年至1879年期間,萊克西斯在研究統計序列過程中利用的思想在判斷統計序列的穩定性方面上與后來方差分析中的檢驗方法相一致。此外,他還提出了一元線性回歸方差分析分解式。1924年,羅納德·費雪(R. A. Fisher)在國際統計學會大會上正式提出了方差分析理論,標志該理論的正式建立。后來,耶茨(Yates)等人繼續不斷完善和發展統計學方法。
固定效應模型和隨機效應模型是兩種常見的方差分析模型。方差分析可依據試驗因素的個數以及試驗因素有無重復的特性這兩種情況進行分類。進行方差分析基本步驟包括計算各水平觀察值均值、分解總誤差自由度和構建方差分析表并進行假設檢驗四個方面。與方差分析類似的統計方法還有協方差分析,它是一種將線性回歸分析與方差分析結合起來的一種統計分析方法。方差分析不僅應用于環境科學領域,用于分析環境空氣質量數據特征,還廣泛應用于醫學和工程學中。
方法內容
方差分析(analysis of variance,ANOVA)是檢驗多個總體的均值是否相等的一種統計方法。方差分析建立在以下基本假設上:每個總體都服從正態分布,且各總體的方差相同,各個觀測值相互獨立。方差分析的基本原理就是根據研究目的和設計類型,將總變異中的離差平方和及其自由度分別分解成相應的若干部分,然后求各相應部分的變異;再用各部分的變異與組內(或誤差)變異進行比較,得出統計量值;最后根據值的大小確定概率值,做出統計推斷。
歷史
奠基工作
1823年,皮埃爾-西蒙·拉普拉斯(Laplace)和約翰·卡爾·弗里德里希·高斯(Gauss)分別在著作《數據結合原理》中證明了高斯-馬爾可夫定理,為最小二乘估計方差表達式的得出提供了理論基礎。后續gaussian還導出了殘差平方和的表達式,并證明了殘差平方和除以,是誤差方差的一個無偏估計。1876年至1879年期間,萊克西斯(Lexis)在研究統計序列過程中利用的思想在判斷統計序列的穩定性方面上與后來方差分析中的檢驗方法相一致。此外,他還提出了一元線性回歸方差分析分解式,為后續方差分析的發展提供了重要的參考。
1900年,卡爾·皮爾遜(Pearson)發表了統計量,用于檢驗經驗分布與某個理論分布是否相符。他還發展了回歸與相關的概念,提出復相關、總相關、相關比等概念,為方差分析的進展奠定了基礎。
理論提出與完善
1922年,羅納德·費雪(R. A. Fisher)發表的論文《回歸公式的擬合優度及回歸系數的分布》還未提出方差分析這個術語,但已很接近這個思想。1924年,在多倫多舉行的國際統計學會大會上,費歇爾做了題為《關于一個引出若干周知統計量的誤差函數的分布》的報告,正式提出了方差分析,這是費歇爾唯一的一篇討論方差分析的理論基礎的數學論文,也是第一篇出現“方差分析表”的數學論文。這標志著方差分析理論的正式建立。
1925年,費歇爾發表《供研究人員用的統計方法》,標志著由戈塞特(Gosset)開始的“小樣本理論”(又叫“學生分布”)最后得以完成。同時,由于費歇爾的努力,使卡爾·皮爾遜在1900年提出的“卡方檢驗法”也能適用于小樣本。1938年,費歇爾同耶茨(Yates)合編“分布顯著性水平表”,為分布和分布的研究和應用提供了便利。從而使統計學完成了由“描述”向“推斷”發展的過程。
基本思想
方差分析的基本原理是認為不同處理組的均數間的差別基本來源有兩個:
(1)隨機誤差,如測量誤差造成的差異或個體間的差異,稱為組內差異,用變量在各組的均值與該組內變量值之偏差平方和的總和表示,記作,組內自由度。
(2)實驗條件,即不同的處理造成的差異,稱為組間差異。用變量在各組的均值與總均值之偏差平方和的總和表示,記作,組間自由度。
總偏差平方和。
組內、組間除以各自的自由度(組內,組間,其中為樣本總數,為組數),得到其均方和,一種情況是處理沒有作用,即各組樣本均來自同一總體,。另一種情況是處理確實有作用,組間均方是由于誤差與不同處理共同導致的結果,即各樣本來自不同總體。那么。比值構成分布。用值與其臨界值比較,推斷各樣本是否來自相同的總體。
方法模型
方差分析模型可以用來研究因變量是如何取決于一個或幾個因素的。這里的一個因素定義為一個分類的自變量;換句話說,是一個定類測量層次的解釋變量。
固定效應模型
一個固定效應的方差分析模型(也稱作第一類方差分析模型)有固定的(即非隨機的)參數來表達每個因素的類別效應。如果統計推論的目標在發現那些完全適用于數據中的因素的分類的結論,那么這種模型就是合適的。
固定效應方差分析模型是廣義線性模型的特殊情況,而廣義線性模型是回歸分析的基礎。在方差分析中一個因素各個分類的效應可以用回歸分析中虛擬變量的回歸系數來表示。廣義線性模型可以寫成:。
式中表示這個案例,表示因變量,到,表示自變量(或解釋變量),是未解釋的部分,通常稱為殘差或誤差。數量則是變量的回歸系數。回歸系數是固定(即非隨機)的數量,也被稱為固定效應它們是總體的特征,回歸模型據此而定義在其他更復雜的模型中出現的固定效應也是類似的,例如,廣義線性模型或非線性回歸模型。
隨機效應模型
方差分析可用于研究因變量如何依賴于一個或多個因子。這里,一個因子被界定為一個類別的自變量,或是一個具有定類測量層次的解釋變量在一個隨機效應方差分析模型(也稱為第二類方差分析模型)中,每個因子的類別效應被設定為隨機變量,也就是一個帶有隨機參數的模型。具體而言,當數據集中一個給定的因子的取值為,,,時,對于個案,該因子的取值記作,相應地,在的線性模型中,該因子在個案上的隨機效應定義為,同時假定,,是獨立同分布的隨機變量。通常,假定這些隨機變量服從一個正態分布。如果這個因子的所有類別被視為來自某個總體的隨機樣本,并且如果統計推論的目的在于獲得這個總體的結論,這樣的模型就是恰當的。
分類
按試驗因素個數
(1)一元配置法,又稱單因素試驗法或一個變異因素方差分析法,就是在試驗時選用的因素個數是一個。
(2)二元配置法,又稱雙因素試驗法或兩個變異因素方差分析法,就是在試驗時選用的因素是兩個。
(3)多元配置法,又稱多因素試驗法或多個變異因素方差分析法,就是在試驗時選用的試驗因素是三個以上。
按試驗因素各水平有無重復
(1)無重復配置法,是試驗因素的各水平只做一次試驗。
(2)有重復配置法,是試驗因素的各水平的組合條件作幾次重復試驗。
計算結果
單因素
單因素方差分析只考慮一個分類變量對數值變量的影響,其他條件不變。假設分類變量有個不同水平,通過次觀測可以獲得數值變量的組獨立的樣本觀測值。這一過程稱為單因素試驗,結果如下。
在上表中,表示第行、第列的觀測值,如表示分類變量第3個水平、第5次觀測得到的數據。表示第行觀測值的平均數(第個水平的均值),即
。
中的點表示已對下標求和,也稱為行均值。總均值即組所有觀測值的平均數用表示,即。
不難看出它也是各水平均值的平均數我們定義總變差為每一觀測值與總均值的離差平方和:
。
對總變差進行平方和分解,有關系式:
(1),
式中,右邊第一個和式記為,稱為組內變差。即:
。
它是個水平各組觀測值組內離差平方和相加的結果;右邊第二個和式記為,它與分類變量有關,稱為組間變差。即
。
它是各水平均值與總均值離差平方和的倍。這樣式(1)就可以表示為:。
無重復試驗雙因素
如果兩個因素對試驗結果的影響是相互獨立的,分別判斷行因素和列因素對試驗數據的影響,這時的方差分析稱為無重復試驗雙因素方差分析或無交互作用的雙因素方差分析。無重復試驗的雙因素方差分析數據結構一般如下表所示。其中,表示行因素的第個水平下各觀察值的平均值,;表示列因素索的第個水平下各個觀察值的平均值,;表示全部個樣本的總平均值,。
可重復試驗雙因素
在雙(多)因素方差分析中,兩個以上因素對結果的影響不是獨立的,這種現象稱為交互作用。由于交互作用的影響,在進行雙因素方差分析時需要在同一條件下進行多次試驗,否則無法將交互作用的平方和從誤差平方和中分離出來,這種數據結構稱為有重復試驗的方差分析數據。有重復試驗的雙因素方差分析數據結構與無重復試驗的雙因素方差分析相同。適用的數據類型也是分布為正態分布、對樣本容量無特別要求的定量數據。有重復試驗的雙因素方差分析數據結構表一般如下表所示。
非平衡數據雙因素
從不同總體抽取的樣本數量可以相同,也可以不同,即可以取不同值。當從總體抽取的樣本數量相同時,即當時,可以定義這組數據為平衡數據;當從總體抽取的樣本數量不全相同時,定義這組數據為非平衡數據。
非平衡數據的雙因素方差分析適用于符合正態分布且對樣本容量無特別要求的定量數據,它的數據結構表如下表所示。
基本步驟
提出假設
比較各個總體的均值是否一致就是要檢驗各個總體的均值是否相等,設第個總體的均值為則原假設,認為多個總體的均值全相等,或可理解為所有觀察值來自同一總體,還可以理解為可控因素(分類變量)對研究對象(數值變量)不存在顯著關系,還可以理解為系統誤差與隨機誤差差異不大,與基于統計量的原假設意義一致。
備擇假設,認為多個總體的均值不全相等,至少有一個總體的均值是不同的。或可理解為所有觀察值來自不同總體,還可以理解為可控因素(分類變量)對研究對象(數值變量)存在顯著關系,還可以理解為系統誤差遠遠大于隨機誤差,與基于統計量的備擇假設意義一致。
根據樣本數據建立分析表
基于方差分析的基本思想,方差分析的關鍵內容是構建方差分析表,具體步驟如下:
第一步:基于寬結構數據表計算各水平對應的觀察值均值。
第二步:使用長結構數據分別計算所有數據的總誤差、來自可控因素的離差平方和(系統誤差)和來自隨機因素的離差平方和(隨機誤差)。
第三步:分解總誤差的自由度。總誤差的自由度為,系統誤差的自由度為,隨機誤差的自由度為。
第五步:計算檢驗統計量。
將上述步驟的計算結果整理成方差分析表,具體如下。
作出假設檢驗的決策
拒絕域法
在給定的顯著性水平下,檢驗統計量的拒絕域為:,查分布表可得具體臨界值,進一步可得具體拒絕域:根據單因素方差分析表中的值與拒絕域比較,值位于拒絕域內,說明來自可控因素的方差確實顯著大于其他因素(隨機)的方差,說明可控因素與研究對象之間存在著顯著性相關關系。
p值法
基于上述方差分析表,值計算公式為:值。
值小于顯著性水平,即值小于,拒絕原假設,說明來自可控因素的方差確實顯著大于其他因素(隨機)的方差,說明可控因素與研究對象之間存在著顯著性相關關系。
類似理論
協方差分析
協方差分析(analysis of covariance,ANCOVA)是將線性回歸分析與方差分析結合起來的一種統計分析方法。它用于比較一個因變量在一個或幾個因素不同水平上的差異,但因變量在受這些因素影響的同時,還受到另一個協變量的影響,而且協變量的取值人為難以控制,不能作為方差分析中的一個因素處理。
模型
一般的協方差分析模型可寫為,,其中,為模型的方差分析部分;的元素皆為或;為模型的回歸部分,的元素可取任何實數值。
應用條件
方差分析是通過對誤差的分析來研究判斷多個正態總體均值是否相等的一種統計分析方法,其應用條件如下:
(1)檢驗因子有種水平,是個相互獨立的正態總體,分別服從于的分布,。亦即各個水平的測量或觀察數據,要能夠被看作是從服從正態分布的總體中隨機抽得的樣本。
(2)各組或各樣本的測量或觀察數據,是從相互獨立的總體中分別抽得的,并且各總體具有相同的方差,以便檢驗個相互獨立的正態總體的均值是否相等。
應用例題
題目:一批棉布用不同的印染工藝處理,然后進行縮水率試驗,假設采用五種不同工藝,每種工藝處理4塊布樣,測得縮水率如下表:
若布的縮水率服從正態分布,不同工藝處理布的方差相等,試考察不同工藝對布的縮水率有無顯著影響。
解:為計算簡便起見,將每一數據減去,再除以,列出方差計算表(變換后數據仍記為,平方和仍分別為,,)。
,,
,,
,
,
。
據此列出方差分析表如下:
而,所以,認為不同印染工藝處理對布的縮水率有明顯影響,但是如果認為這兩個數據值相差不大,結論不那么令人信服,也可再進行一次抽樣。
應用領域
醫學
在中醫臨床研究中,通常會對主要的結果指標實施多次的測量,處理多次測量的數據會選擇重復測量資料方差分析,目的是推斷處理因素、時間因素、兩因素交互對于受試個體的作用效果,分析觀察值的發展趨勢和相關影響因子。重復測量資料的方差分析是研究中縮小個體差異所致誤差的一種有效方法,檢驗效能較高,對于有限的受試個體進行多次測量并收集足夠的數據,節省了樣本含量,在很大程度上減少人力、物力、財力的消耗。
環境科學
空氣環境的好壞是影響環境質量的重要因素之一。它是由空氣中的懸浮顆粒物濃度來度量的,通過實時環境監測對當前的空氣質量指數,了解空氣污染物的主要組成,再分析對各影響空氣質量的因素(時間、監測點),從而減輕空氣污染問題。以空氣質量數據的特征構建方差檢驗模型,通過對時間與空間兩個影響因素進行方差分析檢驗,可以了解空氣污染物對不同地區環境質量的影響。
工程學
在機械制造實際零件加工中,影響成品質量的因素有很多,包括材料、雜質含量、工藝方法、熱處理等因素。為了明確各因素對產品質量的影響程度,需要進行方差分析。通過方差分析,可以有效地分析和判別每個因素對產品質量的影響程度,從而指導生產過程中的調整和改進。
參考資料 >