條件期望(英文名:Conditional expectation),又稱條件數(shù)學(xué)期望。
在概率論中,條件期望是一個(gè)實(shí)數(shù)隨機(jī)變量的相對(duì)于一個(gè)條件概率分布的期望值。換句話說(shuō),這是給定的一個(gè)或多個(gè)其他變量的值一個(gè)變量的期望值。它也被稱為條件期望值。討論兩個(gè)隨機(jī)變量X與Y的場(chǎng)合,假定它們具有密度函數(shù)f(x,y) ,并以g(y|x) 記已知X=x的條件下Y的條件密度函數(shù),以h(x) 記X的邊緣密度函數(shù)。定義在X=x的條件下, Y的條件期望定義為:E(Y|X=x)=∫y*g(y|x)dy。在概率論發(fā)展的初期就已引進(jìn)并應(yīng)用了簡(jiǎn)單情形下的條件概率,一般情形下的條件概率與條件期望的嚴(yán)格定義則是1933年由Α.Η.安德雷·柯?tīng)柲缏宸?/a>給出的,這才使概率統(tǒng)計(jì)的一些重要內(nèi)容建立在嚴(yán)密的基礎(chǔ)上,例如數(shù)理統(tǒng)計(jì)學(xué)中的充分統(tǒng)計(jì)量(見(jiàn)統(tǒng)計(jì)量)、托馬斯·貝葉斯統(tǒng)計(jì)都用到這一概念。
函數(shù)
條件分布函數(shù)與條件期望
在前一章中,對(duì) 離散型隨機(jī)變量,我們?cè)?jīng)研究了在已知 發(fā)生的條件下 的分布問(wèn)題,并稱 P( = x| = y)為條件分布開(kāi),類似的問(wèn)題對(duì) 連續(xù)型隨機(jī)變量也存在。
因?yàn)?連續(xù)型隨機(jī)變量取單 點(diǎn)值的概率為零,所以用 分布函數(shù) P( x)= P( x)來(lái)代替離散型時(shí)的分布列 P( = a),在這里也同樣以 P(
“不定式”
如果已知 的聯(lián)合分布函數(shù) F( x, y)或它的密度函數(shù) p( x, y),如何來(lái)?xiàng)l件分布函數(shù) F( x| y)。由 條件概率的定義讀者會(huì)想到應(yīng)該有
P( x| y)= P(
但是,因?yàn)閷?duì) 連續(xù)型隨機(jī)變量來(lái)說(shuō), P( 不定式”,這并沒(méi)有解決問(wèn)題。
在 數(shù)學(xué)分析中已知 也是 的不定式,為解決這個(gè)矛盾,先考慮有限增量時(shí)的比值,然后再令,并定義
=
由此得到啟發(fā),我們采取同樣的思想途徑定義
P( x| y)= P(
=
= ( 3.86)
因?yàn)?是 連續(xù)型隨機(jī)變量,若其密度函數(shù)為 p( x, y),則上式可以寫(xiě)成
P( x| y)= P(
=
= ( 3.87)
若太是 連續(xù)函數(shù),又,則有
P( x| y)=
= ( 3.88)
顯然,這時(shí) P( x| y)關(guān)于 x的導(dǎo)數(shù)存在,且有
P( x| y)= F( x| y) = ( 3.89)
我們稱 P( x| y)為在已知發(fā)生的條件下 的條件概率密度。完全類似地可以定義 F( x| y)及 P( y| x),讀者還可以比較一下條件概率密度與離散型時(shí)的條件分布列:
P( x| y)=
它們之間是多么的相似 !
例6.18(略)
正文
隨機(jī)變量按條件概率(見(jiàn)概率)的平均。研究隨機(jī)事件之間的關(guān)系時(shí),在已知某些事件發(fā)生的條件下來(lái)考慮另一些事件的統(tǒng)計(jì)規(guī)律是十分重要的。馬爾可夫過(guò)程和鞅論的整個(gè)內(nèi)容更是離不開(kāi)對(duì)條件概率和條件期望的研究。因而它已成為近代概率論與數(shù)理統(tǒng)計(jì)學(xué)中重要的基本概念。
簡(jiǎn)單情形如果僅以單個(gè)事件的發(fā)生作為“條件”,這種情形稱為簡(jiǎn)單情形。在已知正概率事件(即概率不為0的事件)
B
發(fā)生的條件下,定義隨機(jī)變量
關(guān)于事件
B
的條件分布函數(shù)為
(
│
B
)=
({
≤
}│
B
),由條件概率定義知其等于
({
≤
}∩
B
)/
(
B
)。這時(shí),相應(yīng)于這一條件分布函數(shù)的數(shù)學(xué)期望為
稱為
關(guān)于事件
B
的條件期望。
初等情形將簡(jiǎn)單情形加以推廣,即把“已知”理解為通過(guò)觀測(cè)或安排試驗(yàn)所能確切了解到的全部信息。例如,若事件
B
“已知”,它的對(duì)立事件
也“已知”;若事件
B
,
B
,…都已知,則事件
和
也都已知。在這樣的意義下,“已知”的隨機(jī)事件全體構(gòu)成一個(gè)
域
。如果
是由有限個(gè)互不相容的事件{
B
,
B
,…,
B
}生成的,這種情形稱為初等情形。這時(shí)自然把事件
關(guān)于
的條件概率
(
|
)看成是一族簡(jiǎn)單情形的條件概率,它按照哪一個(gè)
B
發(fā)生而取值
(
|
B
);于是隨機(jī)變量
關(guān)于
的條件期望E(
|
)也是一族簡(jiǎn)單情形的條件期望,它按照哪一個(gè)
B
發(fā)生而取值E(
|
B
),即當(dāng)
落入
B
時(shí),E(
|
)(
)=E(
|
B
),
=1,2,…,
。由此可知,E(
|
)是
的函數(shù),而且是
可測(cè)的隨機(jī)變量,即是概率空間(
,
,
)上的隨機(jī)變量。如果每個(gè)
B
都具有正概率,上述的定義是完整的;若某些
B
的概率為0,則從整體上E(
|
)沒(méi)有明確意義的部分只是一個(gè)零概率事件。
密度存在的情形許多實(shí)際問(wèn)題需要考慮比初等情形更復(fù)雜的
。例如為了預(yù)報(bào)明天是否下雨這個(gè)隨機(jī)事件,可以測(cè)量空氣的相對(duì)濕度,而濕度本身可以看作一個(gè)連續(xù)型的隨機(jī)變量
。這時(shí)“已知”的
域
就是
所生成的
域
(
),且常簡(jiǎn)記E(
│
(
))=E(
│
)。若隨機(jī)變量
、
有聯(lián)合密度函數(shù)
(
,
),則
關(guān)于事件{
=
}的條件密度為
,而
關(guān)于{
=
}的條件期望就是
這時(shí)E(
│
)是
的波萊爾可測(cè)函數(shù),即
(
)可測(cè)的隨機(jī)變量,當(dāng)
滿足
(
)=
時(shí),
。
一般情形根據(jù)以上的想法,把“已知”條件理解為給定了概率空間(
,F,
)中F的一個(gè)子
域
,定義隨機(jī)變量
關(guān)于
的條件期望E(
|
)是這樣的
可測(cè)的隨機(jī)變量,它在每一個(gè)“已知”的隨機(jī)事件
∈
上的平均同原隨機(jī)變量
在
上的平均相等,即
根據(jù)測(cè)度論中的拉東-尼科迪姆定理,在數(shù)學(xué)期望E
存在的場(chǎng)合,這樣的隨機(jī)變量E(
|
)一定存在,雖不惟一,但彼此之間只在一個(gè)零概率事件上有差異。對(duì)于初等情形和密度存在的情形,前述的特殊定義方法與這里的一般定義是一致的。若
是僅由═與
組成的最簡(jiǎn)單的子
域,則E(
|
)就以概率1等于E
。
條件期望具有類似于數(shù)學(xué)期望的性質(zhì)。如設(shè)
,
為數(shù)學(xué)期望有窮的隨機(jī)變量,
為常數(shù),則以概率1成立以下關(guān)系式:E(
+
|
)=E(
|
)+E(
|
);E(
|
)=
;E(
|
)=
E(
│
);
≥0蘊(yùn)含E(
|
)≥0;又若Z為
可測(cè)隨機(jī)變量,且 E(
)存在,則以概率1成立E(
|
)=ZE(
|
)。此外還有E(E(
|
))=E
;又若
的方差有窮,則對(duì)一切
可測(cè)隨機(jī)變量Z有
E(
),換言之,E(
|
)是所有
可測(cè)隨機(jī)變量中最“接近”
的。
條件概率與正則條件概率任何事件
的示性函數(shù)
(即
(
)=1或0,視
∈
或
而定)都是隨機(jī)變量,其條件期望 E(
|
)稱為
關(guān)于
的條件概率,記作
(
|
)。條件概率具有類似于通常概率的性質(zhì):如0≤
(
|
)≤1,
(
|
)=1,對(duì)兩兩不相容的事件列
。但所有這些關(guān)系都只能以概率1成立,而不一定處處成立。因此對(duì)于固定的
,{
(
|
)(
):
∈F}不一定是F上的概率測(cè)度。如能通過(guò)調(diào)整隨機(jī)變量
(
|
)在零概率事件上的值,使{
(
|
):
∈F}對(duì)每一
都是F上的概率測(cè)度,則把
(
|
)(
)記成
,稱為關(guān)于
的正則條件概率。這時(shí)條件期望可表成對(duì)正則條件概率的積分
。對(duì)于性質(zhì)比較好的概率空間,例如
是
維實(shí)空間
,F是波萊爾域,則關(guān)于任意的子
域
,正則條件概率總存在。
條件獨(dú)立性相應(yīng)于條件概率的獨(dú)立性稱為條件獨(dú)立性。設(shè)F
,F
是F的子
域,F
和F
關(guān)于
條件獨(dú)立,是指任給
∈F
,
∈F
,以概率1成立
這個(gè)關(guān)系式等價(jià)于:任給
∈F
,以概率1成立
這正是馬爾可夫過(guò)程在已知現(xiàn)在(
)的條件下,過(guò)去(F
)和將來(lái) (F
)條件獨(dú)立的一種嚴(yán)格的數(shù)學(xué)表述。又如果
是僅由═與
組成的子
域,則關(guān)于
的條件獨(dú)立性就是通常意義下的獨(dú)立性(見(jiàn)隨機(jī)變量)。
作用
條件 數(shù)學(xué)期望在近代概率論中有著基本重要的作用,在實(shí)際問(wèn)題中也有很大用處。在兩個(gè)互有影響的 隨機(jī)變量、中,如果已知其中一個(gè)隨機(jī)變量的取值 =y,要據(jù)此去估計(jì)或預(yù)測(cè)另一個(gè)隨機(jī)變量的取值,這樣的問(wèn)題在實(shí)際應(yīng)用中經(jīng)常會(huì)碰到。人們稱它為“預(yù)測(cè)問(wèn)題”。由上述討論可知,條件 數(shù)學(xué)期望 E( )是在已知( = y)發(fā)生的條件下,對(duì) 的一個(gè)頗為“合理”的預(yù)測(cè)。
例6.18(略)
一般認(rèn)為,人的身高和腳印長(zhǎng)可當(dāng)作一個(gè)二維正態(tài)分布變量來(lái)處理。下面我們給出腳印長(zhǎng)的估計(jì)式:
E( )=
如果 把畫(huà)在平面的 直角坐標(biāo)系中,它是一條直線,這條直線在一定程度上描寫(xiě)了身高 依賴于 的關(guān)系,常常稱為是 回歸直線。在一般情形下,由
E( ,y) ( 3.94)
或
{x, E( )} ( 3.94)
可以得到平面上的兩條曲線,它們稱為是 回歸曲線或簡(jiǎn)稱為 回歸,
前面曾經(jīng)指出,把 E( )作為在已知( = y)發(fā)生的條件下,對(duì) 的估計(jì)或預(yù)測(cè),在直覺(jué)上是“合理”的,究竟它合理在什么地方?這個(gè)估計(jì)或預(yù)測(cè)具有那些“優(yōu)良”的性質(zhì)值得引起人們的注意呢?這是下面要進(jìn)一步研究的問(wèn)題。
性質(zhì)
我們已經(jīng)知道 E( )是 的函數(shù),現(xiàn)不妨假定有別的 的函數(shù)g( )可以作為對(duì) 的估計(jì)或預(yù)測(cè),我們當(dāng)然要求這種估計(jì)或預(yù)測(cè)的 誤差|要盡可能地小,但| |是隨機(jī)變量,一般就要求它的平均值
E[ ]=min
但是絕對(duì)運(yùn)算在 數(shù)學(xué)上處理并不方便,回憶在 數(shù)學(xué)分析中提到過(guò)的最小的二乘方法以及第二章中關(guān)于 方差的討論,讀者能夠想到,可以要求
E[ ] =min
如果 的密度函數(shù)為 p( x, y),就有
E[ ] =
=
由 方差的性質(zhì)( 3.74),當(dāng)g(y)= E( )時(shí),能使
達(dá)到最小,從而當(dāng)g(y)= E( )時(shí)也使 E[ ] 到最小。所以,在已知( = y)發(fā)生的條件下,用 E( )作為對(duì) 的估計(jì)或預(yù)測(cè)是最佳的,這時(shí)均方差 E{[ ] | = y}達(dá)到最小,這里證明的是連續(xù)型的情形,對(duì)離散型也可以類似地證明這個(gè)結(jié)論。
二類回歸
我們已經(jīng)知道用 E( )作為對(duì) 進(jìn)行估計(jì)或預(yù)測(cè)具有很有的性質(zhì)。在 的任意函數(shù)中,它的平均 方差為最小,但是在某些場(chǎng)合,譬如密度函數(shù) p( x, y)為未知,或者 E( )過(guò)分復(fù)雜等原因,這時(shí)可以降低一些要求尋找另外的估計(jì),這當(dāng)中一個(gè)常用的估計(jì)是,只要求所得到的估計(jì)在 的 線性函數(shù)類 L( )= a +b中能使均方差達(dá)到最小,也就是要確定 a與 b常數(shù),使
= E[ ] =min
為此,只要令
上述方程組等價(jià)于
( 3.95)
解此方程組可以求得
( 3.96)
通常稱上式為 線性回歸或 第二類回歸,并稱(3.94)或給出的一般情況的回歸為 第一類回歸。第二婁回歸的性質(zhì)比第一類回歸要差一些,但是在求第二類回歸時(shí),不必知道聯(lián)合密度 函數(shù)而只要求知道、的期望、方差與 協(xié)方差就夠了,而且第二類回歸得到的總是一個(gè) 線性函數(shù),因而第二類回歸有便于應(yīng)用的優(yōu)點(diǎn)。
剩余方差
還有一點(diǎn)應(yīng)該指出的是,對(duì)于用得最廣泛的 正態(tài)分布來(lái)說(shuō),可以從例3.27知道,兩類回歸恰好是一致的。這一事實(shí)表明,就 正態(tài)分布而言,最佳線性估計(jì)就是最佳估計(jì)。當(dāng)然,這里“最佳”的意思是指均方差最小
由(3.96)式還可得到最佳線性估計(jì)的 均方誤差為
E[ ] = E[ ]
=
這個(gè)均方 誤差常常稱為剩余 方差。由上式可知,當(dāng) 與 間的 相關(guān)系數(shù)| |= 1時(shí),剩余 方差為零。這時(shí),可以用(3.96)式來(lái)準(zhǔn)確估計(jì),也就是說(shuō) 與 之間存在著 線性關(guān)系。于是我們又一次證明了 相關(guān)系數(shù)是隨機(jī)變量間 線性相依程度的反映。
參考資料 >
【概率論】4-7:條件期望(Conditional Expectation).博客.2024-03-14
條件期望.北京師范大學(xué).2024-03-14