Tobit模型(tobit model)是指因變量雖然在正值上大致連續分布,但包含一部分以正概率取值為0的觀察值的一類模型。比如,在任一給定年份,有相當數量家庭的醫療保險費用支出為0,因此,雖然年度家庭醫療保險費用支出的總體分布散布于一個很大的正數范圍內,但在數字0上卻相當集中。它也被稱為截尾回歸模型或刪失回歸模型(censored regression model),屬于受限因變量(limited dependent variable)回歸的一種。受限因變量指因變量的觀測值是連續的,但是受到某種限制,得到的觀測值并不完全反映因變量的實際狀態。主要包括斷尾回歸模型(truncated regression model)、Tobit模型(tobit model)和樣本選擇模型(sample selection model)等。
基本概念
經典的Tobit 模型是James Tobin在分析家庭耐用品的支出情況時對Probit 回歸進行的一種推廣(Tobit一詞源自Tobin’S Probit),其后又被擴展成多種情況,Amemiya將其歸納為Ⅰ型到Ⅴ型Tobit模型。標準的Ⅰ型Tobit回歸模型如下:
(1)
式(1)中, 是潛在應變量, 潛變量大于0時被觀察到, 取值為, 小于等于0時在 0 處截尾,是自變量向量, 是系數向 量, 誤差項獨立且服從正態分布: 。該模型也可以作如下簡化表達:
用最小二乘法估計含有截尾數據的模型參數會產生偏差,且估計量是不一致的。在一定假設下可通過最大似然法估計其參數。
Tobit模型的最大似然估計
當Tohit模型的誤差項滿足正態性和方差齊性時, 即式(1)中, ,潛變量滿足經典線性模型假定, 服從 具有線性條件均值的等方差正態分布。在該假設條件下, Tobit模型中對于正值即,給定X下y的密度與給定x 下的密庴 一樣; 對于的觀測值,由于服從標準正態分布并獨立于丁,則
因此如果是來自總體的一次隨機抽取,則在給定下 的密度為:
式中, 是標準正態密度函數。從中得到每個觀測的對數似然函數:
通過將上式對求和,就可以得到容量為n的一個隨機樣本的對數似然函數,即
該式由兩部分組成, 一部分對應于沒有限制的觀測值, 是經典回歸模型部分; 一部分對應于受到限制的觀測值。這是一個非標準 的似然函數,它實際上是離散分布與連續分布的混合。通過對上式極大化, 就可以得到和的最大似然估計值。該對數似然 函數的求解比較棘手,因為Tobit 模型的對數似然函數對原參數和不是全局凹的(global concavity)。對該似然函數進行再參 數化, 可使得估計過程更為簡單, 并且再參數化后的對數似然函數是全局四的。令和對數似然函數變為
對上式極大化,由于Hessian矩陣始終是負正定的,所以不管初始值是什么, 只要迭代過程有一個解, 則這個解就是似然函數的 全局最大化解。應用牛頓法求解時較為簡單, 且收斂速度快, 得到和的估計量后,再利用 和求得原參 數估計量。這些估計量的漸近協方差矩陣可以從估計量中得到。
Tobit模型的半參數估計
Tobit模型最大似然估計的一致性依賴于其潛變量模型中誤差項的正態性和方差齊性,在誤差項存在序列相關(serial correlation)的情況下最大似然估計仍可以保持一致性,但其異方差和非正態分布會導致和 的不一致估計。檢驗Tobit模型中誤差項是否服從正態分布的方法有Hausman檢驗、拉格朗日乘數檢驗和條件矩檢驗等。不滿足正態分布時可選用替代的其他分布,如指數分布、對數正態分布和威布爾分布。但是假定一些其他的特定分布并不能有效的解決問題而且有可能使問題更糟,此時可采用一些穩健的半參數方法。
刪失最小絕對離差估計CLAD(censored least absolute deviations)是Tobit模型的一種半參數估計方法,該方法假定 的中 位數為0,即, 這也意味著, 如果額外假設誤差項有關于0為中心的對稱分布, 那么 條件中位數和均數就是一致的。對于經典線性模型,最小絕對離差估計LAD(Least Absolute Deviations)通過最小化誤差項的絕對 值之和來獲得回歸系數的估計值(最小一乘估計)。在Tobit 模型中只能觀測到截取的因變量y所以要對經典的LAD估計作一些改 進。對任何連續隨機變量Z,可以通過選擇合適的b作為Z 分布的中位數從而最小化函數, 。如果的中位數 是回歸自變量和末知參數的已知函數, 那么的樣本條件中位數可以通過選擇適當的來獲得,而這個使得 函數在 處最小化。對于截取回歸模型來說,很容易證明的中位數函數, 所以CLAD估計的目標函數為
由于該函數是連續的,最小值總是存在,但最小化可能產生不唯一的值。CLAD估計具有一致性,并且有漸近的正態分布,由 于最小化的函數不是連續可微的,所以該估計量的計算較復雜。Buchinsky 建議用迭代線性規劃算法ILPA(the iterative linear programming algorithm)來獲得CLAD 的估計量。由于CLAD 估計允許誤差項可以為更廣泛的分布,包括非對稱分布, 當Tobit模 型的某些有關分布的假設不成立時,蒙特卡羅模擬證據表明它表現良好,對異方差也穩健。Deaton指出當有異方差性時, 小樣本情況下,CLAD估計有大的標準差,而似然估計在小樣本中盡管有偏倚,但它的標準差較小。所以對于小樣本來說似然估計是 比較好的,而CLAD估計隨著樣本含量的增大比較適用。
Tobit模型回歸系數的含義
在實際應用中, Tobit 回歸系數的解釋和一般線性模型的歸系數不同。它與Tobit模型中三個重要的條件期望(conditional expectation)有關,具體應該是哪個解釋取決于實際應用的目的,將這些條件期望對協變量 進行求導后就是想要得到的邊際效應(marginal effects)。
Tobit模型的假設檢驗
在Tobit 模型中可以用似然比檢驗檢驗回歸系數,既適合單個自變量的假設檢驗又適合多個自變量的同時檢驗。
似然比檢驗基于不受約束模型和受約束模型的對數似然函數之差。其思想是,由于似然估計最大化了對數似然函數,所以去 掉變量一般會導致一個較小的對數似然函數值。對數似然函數值的下降程度是否大到足以斷定去掉的變量是重要的,可以通過似 然比統計量和一系列臨界值做出判斷。似然比統計量是對數似然值之差的2倍即為不受約束模型即含 有待檢因素的Tobit 模型的對數似然值為受約束模型即不包含待檢因素的Tobit 模型的對數似然值。似然比統計量在下 服從漸近分布, 自由度為待檢參數的個數q。
以上介紹中將截尾點設為0,這并不使得該模型失去一般性,事實上截尾臨界點可以為可以對所有的i 都是一樣的, 但在多數情況下隨著i的特征而變化,并且既可以從左邊截尾也可以從右邊截尾還可以兩邊同時截尾。事實上, 當誤差項指定 為生存時間經常服從的指數分布且為右刪失時,起源于計量經濟學中的Tobit模型就是醫學統計學領域常用的生存分析中的一種加 速失效模型(accelerated failure model) 。
參考資料 >