必威电竞|足球世界杯竞猜平台

概率模型
來(lái)源:互聯(lián)網(wǎng)

概率模型,給定一個(gè)用戶的查詢串,相對(duì)于該串存在一個(gè)包含所有相關(guān)文檔的集合。我們把這樣的集合看作是一個(gè)理想的結(jié)果文檔集,在給出理想結(jié)果集后,我們能很容易得到結(jié)果文檔。

這樣我們可以把查詢處理看作是對(duì)理想結(jié)果文檔集屬性的處理。問(wèn)題是我們并不能確切地知道這些屬性,我們所知道的是存在索引術(shù)語(yǔ)來(lái)表示這些屬性。由于在查詢期間這些屬性都是不可見(jiàn)的,這就需要在初始階段來(lái)估計(jì)這些屬性。這種初始階段的估計(jì)允許我們對(duì)首次檢索的文檔集合返回理想的結(jié)果集,并產(chǎn)生一個(gè)初步的概率描述。

簡(jiǎn)介

概率模型( Statistical Model,也稱為 Probabilistic Model)是用來(lái)描述不同隨機(jī)變量之間關(guān)系的數(shù)學(xué)模型,通常情況下刻畫了一個(gè)或多個(gè)隨機(jī)變量之間的相互非確定性的概率關(guān)系。從數(shù)學(xué)上講,該模型通常被表達(dá)為,其中 Y 是觀測(cè)集合用來(lái)描述可能的觀測(cè)結(jié)果, P 是 Y 對(duì)應(yīng)的概率分布函數(shù)集合。若使用概率模型,一般而言需假設(shè)存在一個(gè)確定的分布P 生成觀測(cè)數(shù)據(jù) Y 。因此通常使用統(tǒng)計(jì)推斷的辦法確定集合 P 中誰(shuí)是數(shù)據(jù)產(chǎn)生的原因。

大多數(shù)統(tǒng)計(jì)檢驗(yàn)都可以被理解為一種概率模型。例如,一個(gè)比較兩組數(shù)據(jù)均值的學(xué)生t檢驗(yàn)可以被認(rèn)為是對(duì)該概率模型參數(shù)是否為0的檢測(cè)。此外,檢驗(yàn)與模型的另一個(gè)共同點(diǎn)則是兩者都需要提出假設(shè)并且誤差在模型中常被假設(shè)為正態(tài)分布。

定義

概率模型 是一個(gè)概率分布函數(shù)或密度函數(shù)的集合。可分為參數(shù)模型,無(wú)參數(shù)和半?yún)?shù)模型。

參數(shù)模型是一組由有限維參數(shù)構(gòu)成的分布集合。其中是參數(shù),而是其可行歐幾里得子空間。概率模型可被用來(lái)描述一組可產(chǎn)生已知采樣數(shù)據(jù)的分布集合。例如,假設(shè)數(shù)據(jù)產(chǎn)生于唯一參數(shù)的高斯分布,則我們可假設(shè)該概率模型為。

無(wú)參數(shù)模型則是一組由無(wú)限維參數(shù)構(gòu)成的概率分布函數(shù)集合,可被表示為。

相比于無(wú)參數(shù)模型和參數(shù)模型,半?yún)?shù)模型也由無(wú)限維參數(shù)構(gòu)成,但其在分布函數(shù)空間內(nèi)并不緊密。例如,一組混疊的高斯模型。確切的說(shuō),如果是參數(shù)的維度,是數(shù)據(jù)點(diǎn)的大小,如果隨著 和則,則我們稱之為半?yún)?shù)模型。

處理過(guò)程

為了提高理想結(jié)果集的描述概率,系統(tǒng)需要與用戶進(jìn)行交互式(feedback)操作。具體處理過(guò)程如下:用戶大致瀏覽一下結(jié)果文檔,決定哪些是相關(guān)的,哪些是不相關(guān)的;然后系統(tǒng)利用該信息重新定義理想結(jié)果集的概率描述;重復(fù)以上操作,就會(huì)越來(lái)越接近真正的結(jié)果文檔集。

算法

下面將具體討論一種簡(jiǎn)單的算法。

在查詢的開始間段只定義了查詢串,還沒(méi)有得到結(jié)果文檔集。我們不得不作一些簡(jiǎn)單的假設(shè),例如:(a)假定 對(duì)所有的索引術(shù)語(yǔ) 來(lái)說(shuō)是常數(shù)(一般等于0.5);(b)假定索引術(shù)語(yǔ)在非相關(guān)文檔中的分布可以由索引術(shù)語(yǔ)在集合中所有文檔中的分布來(lái)近似表示。這兩種假設(shè)用公式表示如下:

表示出現(xiàn)索引術(shù)語(yǔ) 的文檔的數(shù)目,N是集合中總的文檔的數(shù)目。在上面的假設(shè)下,我們可以得到部分包含查詢串的文檔,并為他們提供一個(gè)初始的相關(guān)概率。

優(yōu)點(diǎn)

概率模型的優(yōu)點(diǎn)在于,文檔可以按照他們相關(guān)概率遞減的順序來(lái)計(jì)算秩(rank)。他的缺點(diǎn)在于:開始時(shí)需要猜想把文檔分為相關(guān)和不相關(guān)的兩個(gè)集合,實(shí)際上這種模型沒(méi)有考慮索引術(shù)語(yǔ)在文檔中的頻率(因?yàn)樗械臋?quán)重都是二元的),而索引術(shù)語(yǔ)都是相互獨(dú)立的。

參考資料 >

生活家百科家居網(wǎng)