猫先生电竞,雷火官网入口,竞博

來(lái)源：互聯(lián)網(wǎng)

概率模型，給定一個(gè)用戶的查詢串，相對(duì)于該串存在一個(gè)包含所有相關(guān)文檔的集合。我們把這樣的集合看作是一個(gè)理想的結(jié)果文檔集，在給出理想結(jié)果集后，我們能很容易得到結(jié)果文檔。

這樣我們可以把查詢處理看作是對(duì)理想結(jié)果文檔集屬性的處理。問(wèn)題是我們并不能確切地知道這些屬性，我們所知道的是存在索引術(shù)語(yǔ)來(lái)表示這些屬性。由于在查詢期間這些屬性都是不可見(jiàn)的，這就需要在初始階段來(lái)估計(jì)這些屬性。這種初始階段的估計(jì)允許我們對(duì)首次檢索的文檔集合返回理想的結(jié)果集，并產(chǎn)生一個(gè)初步的概率描述。

簡(jiǎn)介

概率模型（ Statistical Model，也稱為 Probabilistic Model）是用來(lái)描述不同隨機(jī)變量之間關(guān)系的數(shù)學(xué)模型，通常情況下刻畫了一個(gè)或多個(gè)隨機(jī)變量之間的相互非確定性的概率關(guān)系。從數(shù)學(xué)上講，該模型通常被表達(dá)為，其中 Y 是觀測(cè)集合用來(lái)描述可能的觀測(cè)結(jié)果， P 是 Y 對(duì)應(yīng)的概率分布函數(shù)集合。若使用概率模型，一般而言需假設(shè)存在一個(gè)確定的分布P 生成觀測(cè)數(shù)據(jù) Y 。因此通常使用統(tǒng)計(jì)推斷的辦法確定集合 P 中誰(shuí)是數(shù)據(jù)產(chǎn)生的原因。

大多數(shù)統(tǒng)計(jì)檢驗(yàn)都可以被理解為一種概率模型。例如，一個(gè)比較兩組數(shù)據(jù)均值的學(xué)生t檢驗(yàn)可以被認(rèn)為是對(duì)該概率模型參數(shù)是否為0的檢測(cè)。此外，檢驗(yàn)與模型的另一個(gè)共同點(diǎn)則是兩者都需要提出假設(shè)并且誤差在模型中常被假設(shè)為正態(tài)分布。

定義

概率模型是一個(gè)概率分布函數(shù)或密度函數(shù)的集合。可分為參數(shù)模型，無(wú)參數(shù)和半?yún)?shù)模型。

參數(shù)模型是一組由有限維參數(shù)構(gòu)成的分布集合。其中是參數(shù)，而是其可行歐幾里得子空間。概率模型可被用來(lái)描述一組可產(chǎn)生已知采樣數(shù)據(jù)的分布集合。例如，假設(shè)數(shù)據(jù)產(chǎn)生于唯一參數(shù)的高斯分布，則我們可假設(shè)該概率模型為。

無(wú)參數(shù)模型則是一組由無(wú)限維參數(shù)構(gòu)成的概率分布函數(shù)集合，可被表示為。

相比于無(wú)參數(shù)模型和參數(shù)模型，半?yún)?shù)模型也由無(wú)限維參數(shù)構(gòu)成，但其在分布函數(shù)空間內(nèi)并不緊密。例如，一組混疊的高斯模型。確切的說(shuō)，如果是參數(shù)的維度，是數(shù)據(jù)點(diǎn)的大小，如果隨著和則，則我們稱之為半?yún)?shù)模型。

處理過(guò)程

為了提高理想結(jié)果集的描述概率，系統(tǒng)需要與用戶進(jìn)行交互式（feedback）操作。具體處理過(guò)程如下：用戶大致瀏覽一下結(jié)果文檔，決定哪些是相關(guān)的，哪些是不相關(guān)的；然后系統(tǒng)利用該信息重新定義理想結(jié)果集的概率描述；重復(fù)以上操作，就會(huì)越來(lái)越接近真正的結(jié)果文檔集。

算法

下面將具體討論一種簡(jiǎn)單的算法。

在查詢的開始間段只定義了查詢串，還沒(méi)有得到結(jié)果文檔集。我們不得不作一些簡(jiǎn)單的假設(shè)，例如：（a）假定對(duì)所有的索引術(shù)語(yǔ) 來(lái)說(shuō)是常數(shù)（一般等于0.5）；（b）假定索引術(shù)語(yǔ)在非相關(guān)文檔中的分布可以由索引術(shù)語(yǔ)在集合中所有文檔中的分布來(lái)近似表示。這兩種假設(shè)用公式表示如下：

表示出現(xiàn)索引術(shù)語(yǔ) 的文檔的數(shù)目，N是集合中總的文檔的數(shù)目。在上面的假設(shè)下，我們可以得到部分包含查詢串的文檔，并為他們提供一個(gè)初始的相關(guān)概率。

優(yōu)點(diǎn)

概率模型的優(yōu)點(diǎn)在于，文檔可以按照他們相關(guān)概率遞減的順序來(lái)計(jì)算秩（rank）。他的缺點(diǎn)在于：開始時(shí)需要猜想把文檔分為相關(guān)和不相關(guān)的兩個(gè)集合，實(shí)際上這種模型沒(méi)有考慮索引術(shù)語(yǔ)在文檔中的頻率（因?yàn)樗械臋?quán)重都是二元的），而索引術(shù)語(yǔ)都是相互獨(dú)立的。

參考資料 >

必威电竞|足球世界杯竞猜平台

簡(jiǎn)介

定義

處理過(guò)程

算法

優(yōu)點(diǎn)