必威电竞|足球世界杯竞猜平台

線性回歸
來源:互聯網

線性回歸,是一種在統計學中廣泛應用的分析方法,線性回歸指的是表達某一個隨機變量的條件均值與一個或多個解釋變量的相關取值之間的關系,線性回歸的表達式為:,其中為誤差服從均值為0的正態分布

回歸方法起源可追溯到20世紀20年代和30年代的弗朗西斯·高爾頓爵士和卡爾·皮爾遜爵士對甜豌豆遺傳特性的早期研究,回歸便可以用作表達、證明輸入變量和輸出變量之間關系的統計方法。

在數學方面,線性回歸可以用來對觀測數據集合出一個預測模型,根據它的自變量X去預測Y值的變動。金融方面可利用線性回歸以及Beta系數的概念分析和計算投資的系統風險

基本含義

統計學中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數對一個或多個自變量和因變量之間關系進行建模的一種回歸分析。這種函數是一個或多個稱為回歸系數的模型參數的線性組合。只有一個自變量的情況稱為簡單回歸,大于一個自變量情況的叫做多元回歸。(這反過來又應當由多個相關的因變量預測的多元線性回歸區別,[引文需要],而不是一個單一的標量變量。)

回歸分析中有多個自變量:這里有一個原則問題,這些自變量的重要性,究竟誰是最重要,誰是比較重要,誰是不重要。所以,SPSS Clementine線性回歸有一個和逐步判別分析的等價的設置。

原理:是F檢驗。spss中的操作是“分析”~“回歸”~“線性”主對話框方法框中需先選定“逐步”方法~“選項”子對話框

如果是選擇“用F檢驗的概率值”,越小代表這個變量越容易進入方程。原因是這個變量的F檢驗的概率小,說明它顯著,也就是這個變量對回歸方程的貢獻越大,進一步說就是該變量被引入回歸方程的資格越大。究其根本,就是零假設分水嶺,例如要是把進入設為0.05,大于它說明接受零假設,這個變量對回歸方程沒有什么重要性,但是一旦小于0.05,說明,這個變量很重要應該引起注意。這個0.05就是進入回歸方程的通行證。

下一步:“移除”選項:如果一個自變量F檢驗的P值也就是概率值大于移除中所設置的值,這個變量就要被移除回歸方程。spss回歸分析也就是把自變量作為一組待選的商品,高于這個價就不要,低于一個比這個價小一些的就買來。所以“移除”中的值要大于“進入”中的值,默認“進入”值為0.05,“移除”值為0.10

如果,使用“采用F值”作為判據,整個情況就顛倒了,“進入”值大于“移除”值,并且是自變量的進入值需要大于設定值才能進入回歸方程。這里的原因就是F檢驗原理的計算公式。所以才有這樣的差別。

結果:如同判別分析的逐步方法,表格中給出所有自變量進入回歸方程情況。這個表格的標志是,第一列寫著擬合步驟編號,第二列寫著每步進入回歸方程的編號,第三列寫著從回歸方程中剔除的自變量。第四列寫著自變量引入或者剔除的判據,下面跟著一堆文字。

這種設置的根本目的:挑選符合的變量,剔除不符合的變量。

注意:SPSS Clementine中還有一個設置,“在等式中包含常量”,它的作用是如果不選擇它,回歸模型經過原點,如果選擇它,回歸方程就有常數項。這個選項選和不選是不一樣的。

在線性回歸中,數據使用線性預測函數來建模,并且未知的模型參數也是通過數據來估計。這些模型被叫做線性模型。最常用的線性回歸建模是給定X值的y的條件均值是X的仿射函數。不太一般的情況,線性回歸模型可以是一個中位數或一些其他的給定X的條件下y的條件分布的分位數作為X的線性函數表示。像所有形式的回歸分析一樣,線性回歸也把焦點放在給定X值的y的條件概率分布,而不是X和y的聯合概率分布(多元分析領域)。

線性回歸是回歸分析中第一種經過嚴格研究并在實際應用中廣泛使用的類型。這是因為線性依賴于其未知參數的模型比非線性依賴于其位置參數的模型更容易擬合,而且產生的估計的統計特性也更容易確定。

線性回歸模型經常用最小二乘逼近來擬合,但他們也可能用別的方法來擬合,比如用最小化“擬合缺陷”在一些其他規范里(比如最小絕對誤差回歸),或者在橋回歸中最小化最小二乘損失函數的懲罰。相反,最小二乘逼近可以用來擬合那些非線性的模型。因此,盡管“最小二乘法”和“線性模型”是緊密相連的,但他們是不能劃等號的。

數據組說明線性回歸

以一簡單數據組來說明什么是線性回歸。假設有一組數據型態為 y=y(x),其中

如果要以一個最簡單的方程式來近似這組數據,則用一階的線性方程式最為適合。先將這組數據繪圖如下

圖中的斜線是隨意假設一階線性方程式 y=20x,用以代表這些數據的一個方程式。以下將上述繪圖的MATLAB指令列出,并計算這個線性方程式的 y 值與原數據 y 值間誤差平方的總合。

>> x=[0 1 2 3 4 5];

>> y=[0 20 60 68 77 110];

>> y1=20*x; % 一階線性方程式的 y1 值

>> sum_sq = sum((y-y1).^2); % 誤差平方總和為 573

>> axis([-1,6,-20,120])

>> 情節(x,y1,x,y,'o'), title('Linear estimate'), 濾線柵

如此任意的假設一個線性方程式并無根據,如果換成其它人來設定就可能采用不同的線性方程式;所以必須要有比較精確方式決定理想的線性方程式。可以要求誤差平方的總和為最小,做為決定理想的線性方程式的準則,這樣的方法就稱為最小平方誤差(least squares error)或是線性回歸。MATLAB的polyfit函數提供了 從一階到高階多項式的回歸法,其語法為polyfit(x,y,n),其中x,y為輸入數據組n為多項式的階數,n=1就是一階 的線性回歸法。polyfit函數所建立的多項式可以寫成

從polyfit函數得到的輸出值就是上述的各項系數,以一階線性回歸為例n=1,所以只有 二個輸出值。如果指令為coef=polyfit(x,y,n),則coef(1)= , coef(2)=,...,coef(n+1)= 。注意上式對n 階的多 項式會有 n+1 項的系數。看以下的線性回歸的示范:

>> x=[0 1 2 3 4 5];

>> y=[0 20 60 68 77 110];

>> coef=polyfit(x,y,1); % coef 代表線性回歸的二個輸出值

>> a0=coef(1); a1=coef(2);

>> ybest=a0*x+a1; % 由線性回歸產生的一階方程式

>> sum_sq=sum((y-ybest).^2); % 誤差平方總合為 356.82

>> axis([-1,6,-20,120])

>> 情節(x,ybest,x,y,'o'), title('Linear regression estimate'), grid

擬合方程

最小二乘法

一般來說,線性回歸都可以通過最小二乘法求出其方程,可以計算出對于y=bx+a的直線。

一般地,影響y的因素往往不止一個,假設有x1,x2,...,xk,k個因素,通常可考慮如下的線性關系式:

對y與x1,x2,...,xk同時作n次獨立觀察得n組觀測值(xt1,xt2,...,xtk),t=1,2,...,n(n>k+1),它們滿足關系式:

其中,互不相關均是與?同分布的隨機變量。為了用矩陣表示上式,令:

于是有,使用最小二乘法得到?的解。其中,稱為的偽逆。

結果分析

雖然不同的統計軟件可能會用不同的格式給出回歸的結果,但是它們的基本內容是一致的。以stata的輸出為例來說明如何理解回歸分析的結果。在這個例子中,測試讀者的性別(gender),年齡(age),知識程度(know)與文檔的次序(noofdoc)對他們所覺得的文檔質量(relevance)的影響。

輸出:

Source | SS df MS Number of obs = 242

-------------+------------------------------------------ F ( 4, 237) = 2.76

Model | 14.0069855 4 3.50174637 Prob > F = 0.0283

Residual | 300.279172 237 1.26700072 R-squared = 0.0446

------------- +------------------------------------------- Adj R-squared = 0.0284

道達爾公司 | 314.286157 241 1.30409194 根音 MSE = 1.1256

relevance | Coef. Std. Err. t P>|t| Beta

---------------+--------------------------------------------------------------------------------

gender | -.2111061 .1627241 -1.30 0.196 -.0825009

age | -.1020986 .0486324 -2.10 0.037 -.1341841

know | .0022537 .0535243 0.04 0.966 .0026877

noofdoc | -.3291053 .1382645 -2.38 0.018 -.1513428

_cons | 7.334757 1.072246 6.84 0.000 .

輸出

這個輸出包括以下幾部分。左上角給出方差分析表,右上角是模型擬合綜合參數。下方的表給出了具體變量的回歸系數。方差分析表對大部分的行為研究者來講不是很重要,不做討論。在擬合綜合參數中, R-squared 表示因變量中多大的一部分信息可以被自變量解釋。在這里是4.46%,相當小。

回歸系數

一般地,要求這個值大于5%。對大部分的行為研究者來講,最重要的是回歸系數。年齡增加1個單位,文檔的質量就下降 -.1020986個單位,表明年長的人對文檔質量的評價會更低。這個變量相應的t值是 -2.10,絕對值大于2,p值也<0.05,所以是顯著的。結論是,年長的人對文檔質量的評價會更低,這個影響是顯著的。相反,領域知識越豐富的人,對文檔的質量評估會更高,但是這個影響不是顯著的。這種對回歸系數的理解就是使用回歸分析進行假設檢驗的過程。

回歸方程誤差

離差平方和

, ,

其中

,代表y的平方和;是相關系數,代表變異被回歸直線解釋的比例;

就是不能被回歸直線解釋的變異,即SSE。

根據回歸系數與直線斜率的關系,可以得到等價形式: ,其中b為直線斜率

利用預測值

,其中 是實際測量值,是根據直線方程算出來的預測值

不確定度

斜率b

法1:用

法2:把斜率b帶入

截距a

應用

數學

線性回歸有很多實際用途。分為以下兩大類:

趨勢線

一條趨勢線代表著時間序列數據的長期走勢。它告訴我們一組特定數據(如GDP、石油價格和股票價格)是否在一段時期內增長或下降。雖然我們可以用肉眼觀察數據點在坐標系的位置大體畫出趨勢線,更恰當的方法是利用線性回歸計算出趨勢線的位置和斜率

流行病學

有關吸煙對死亡率和發病率影響的早期證據來自采用了回歸分析觀察性研究。為了在分析觀測數據時減少偽相關,除最感興趣的變量之外,通常研究人員還會在他們的回歸模型里包括一些額外變量。例如,假設我們有一個回歸模型,在這個回歸模型中吸煙行為是我們最感興趣的獨立變量,其相關變量是經數年觀察得到的吸煙者壽命。研究人員可能將社會經濟地位當成一個額外的獨立變量,已確保任何經觀察所得的吸煙對壽命的影響不是由于教育或收入差異引起的。然而,我們不可能把所有可能混淆結果的變量都加入到實證分析中。例如,某種不存在的基因可能會增加人死亡的幾率,還會讓人的吸煙量增加。因此,比起采用觀察數據的回歸分析得出的結論,隨機對照試驗常能產生更令人信服的因果關系證據。當可控實驗不可行時,回歸分析的衍生,如工具變量回歸,可嘗試用來估計觀測數據的因果關系。

金融

資本資產定價模型利用線性回歸以及Beta系數的概念分析和計算投資的系統風險。這是從聯系投資回報和所有風險性資產回報的模型Beta系數直接得出的。

經濟學

線性回歸是經濟學的主要實證工具。例如,它是用來預測消費支出,固定投資支出,存貨投資,一國出口產品的購買,進口支出,要求持有流動性資產,勞動力需求、勞動力供給。

參考資料 >

生活家百科家居網