主題模型(topic model)是以非監(jiān)督學(xué)習(xí)的方式對文集的隱含語義結(jié)構(gòu)(latent semantic structure)進(jìn)行聚類(clustering)的統(tǒng)計(jì)模型。
主題模型主要被用于自然語言處理(Natural language processing)中的語義分析(semantic analysis)和文本挖掘(text mining)問題,例如按主題對文本進(jìn)行收集、分類和降維;也被用于生物信息學(xué)(bioinfomatics)研究。隱含狄利克雷分布Latent Dirichlet Allocation, LDA)是常見的主題模型。
歷史
對主題模型的研究最早來自1998年Christos H. Papadimitriou、Prabhakar Raghavan、Hisao Tamaki和Santosh Vempala提出的潛在語義索引(Latent Semantic Indexing, LSI) 。1999年,Thomas Hofmann提出了概率性潛在語義索引(Probabilistic LST, PLST) 。
2003年,David M.Blei、Andrew Ng和Jordan I. Michael提出了隱含狄利克雷分布(Latent Dirichlet Allocation, LDA) 。LDA得到了廣泛使用,并衍生出了很多改進(jìn)版本,例如在2006年由Wei Li和Andrew McCallum提出的彈珠機(jī)分布模型(pachinko allocation model) 。
理論
在主題模型中,主題(topic)是以文本中所有字符為支撐集的概率分布,表示該字符在該主題中出現(xiàn)的頻繁程度,即與該主題關(guān)聯(lián)性高的字符有更大概率出現(xiàn)。在文本擁有多個主題時,每個主題的概率分布都包括所有字符,但一個字符在不同主題的概率分布中的取值是不同的。一個主題模型試圖用數(shù)學(xué)框架來體現(xiàn)文檔的這種特點(diǎn)。主題模型自動分析每個文檔,統(tǒng)計(jì)文檔內(nèi)的詞語,根據(jù)統(tǒng)計(jì)的信息來斷定當(dāng)前文檔含有哪些主題,以及每個主題所占的比例各為多少。
舉例而言,在“狗”主題中,與該主題有關(guān)的字符,例如“狗”、“骨頭”等詞會頻繁出現(xiàn);在“貓”主題中,“貓”、“魚”等詞會頻繁出現(xiàn)。若主題模型在分析一篇文章后得到10%的“貓”主題和“90%”的狗主題,那意味著字符“狗”和“骨頭”的出現(xiàn)頻率大約是字符“貓”和“魚”的9倍。
應(yīng)用
在自然語言處理中,主題模型被用于對文本的表征(representation)進(jìn)行降維(dimensionality reduction)、按主題對文本進(jìn)行聚類、以及根據(jù)用戶偏好形成文本推薦系統(tǒng)。
參考資料 >