雷火电竞lh登录入口,雷火竞技官网电子,英国伟德

來源：互聯(lián)網(wǎng)

主題模型（topic model）是以非監(jiān)督學(xué)習(xí)的方式對文集的隱含語義結(jié)構(gòu)（latent semantic structure）進(jìn)行聚類（clustering）的統(tǒng)計(jì)模型。

主題模型主要被用于自然語言處理（Natural language processing）中的語義分析（semantic analysis）和文本挖掘（text mining）問題，例如按主題對文本進(jìn)行收集、分類和降維；也被用于生物信息學(xué)（bioinfomatics）研究。隱含狄利克雷分布Latent Dirichlet Allocation, LDA）是常見的主題模型。

歷史

對主題模型的研究最早來自1998年Christos H. Papadimitriou、Prabhakar Raghavan、Hisao Tamaki和Santosh Vempala提出的潛在語義索引（Latent Semantic Indexing, LSI）。1999年，Thomas Hofmann提出了概率性潛在語義索引（Probabilistic LST, PLST）。

2003年，David M.Blei、Andrew Ng和Jordan I. Michael提出了隱含狄利克雷分布（Latent Dirichlet Allocation, LDA）。LDA得到了廣泛使用，并衍生出了很多改進(jìn)版本，例如在2006年由Wei Li和Andrew McCallum提出的彈珠機(jī)分布模型（pachinko allocation model）。

理論

在主題模型中，主題（topic）是以文本中所有字符為支撐集的概率分布，表示該字符在該主題中出現(xiàn)的頻繁程度，即與該主題關(guān)聯(lián)性高的字符有更大概率出現(xiàn)。在文本擁有多個主題時，每個主題的概率分布都包括所有字符，但一個字符在不同主題的概率分布中的取值是不同的。一個主題模型試圖用數(shù)學(xué)框架來體現(xiàn)文檔的這種特點(diǎn)。主題模型自動分析每個文檔，統(tǒng)計(jì)文檔內(nèi)的詞語，根據(jù)統(tǒng)計(jì)的信息來斷定當(dāng)前文檔含有哪些主題，以及每個主題所占的比例各為多少。

舉例而言，在“狗”主題中，與該主題有關(guān)的字符，例如“狗”、“骨頭”等詞會頻繁出現(xiàn)；在“貓”主題中，“貓”、“魚”等詞會頻繁出現(xiàn)。若主題模型在分析一篇文章后得到10%的“貓”主題和“90%”的狗主題，那意味著字符“狗”和“骨頭”的出現(xiàn)頻率大約是字符“貓”和“魚”的9倍。

應(yīng)用

在自然語言處理中，主題模型被用于對文本的表征（representation）進(jìn)行降維（dimensionality reduction）、按主題對文本進(jìn)行聚類、以及根據(jù)用戶偏好形成文本推薦系統(tǒng)。

參考資料 >

必威电竞|足球世界杯竞猜平台

歷史

理論

應(yīng)用