來源:互聯網
在概率論或信息論中,KL散度( Kullback–Leibler divergence),又稱相對(relative entropy),是描述兩個概率分布P和Q差異的一種方法。它是非對稱的,這意味著D(P||Q) ≠ D(Q||P)。特別的,在信息論中,D(P||Q)表示當用概率分布Q來擬合真實分布P時,產生的信息損耗,其中P表示真實分布,Q表示P的擬合分布。有人將KL散度稱為KL距離,但事實上,KL散度并不滿足距離的概念,因為:1)KL散度不是對稱的;2)KL散度不滿足三角不等式。
物理意義
KL散度是用來 度量使用基于Q的編碼來編碼來自P的樣本平均所需的額外的比特個數。典型情況下,P表示數據的真實分布,Q表示數據的理論分布,模型分布,或P的近似分布。
根據克勞德·香農的信息論,給定一個字符集的概率分布,我們可以設計一種編碼,使得表示該字符集組成的字符串平均需要的比特數最少。假設這個字符集是X,對,其出現概率為P(x),那么其最優編碼平均需要的比特數等于這個字符集的熵:
在同樣的字符集上,假設存在另一個概率分布Q(X)。如果用概率分布P(X)的最優編碼(即字符x的編碼長度等于),來為符合分布Q(X)的字符編碼,那么表示這些字符就會比理想情況多用一些比特數。KL散度就是用來衡量這種情況下平均每個字符多用的比特數,因此可以用來衡量兩個分布的距離。即:
由于對數函數是上凸函數,所以:
所以KL散度始終是大于等于0的,當且僅當兩分布相同時,KL散度等于0。
參考資料 >