向量空間模型(向量 Space Model,VSM)是一種代數(shù)模型,用于信息過濾、信息檢索、索引以及相關(guān)性評估。它將文本文件表示為標(biāo)識符(如索引詞)的向量,從而簡化了文本內(nèi)容的處理。Salton等人在20世紀(jì)70年代提出了這一模型,并將其成功應(yīng)用于SMART文本檢索系統(tǒng)。在VSM中,文本的語義相似度通過向量空間中的相似度來表達(dá),使得模型直觀且易于理解。
概念
向量空間模型的核心概念是將文檔和查詢都表示為向量,其中每一維對應(yīng)一個獨(dú)立的詞組。文檔被轉(zhuǎn)換為特征項(xiàng)向量,通過計算向量之間的相似性來度量文檔間的相似性。最常用的相似性度量方法是余弦距離,它計算兩個向量的點(diǎn)積與各自模的乘積的比值。SMART系統(tǒng)是首個使用VSM的信息檢索系統(tǒng),它將文件視為索引詞形成的多維向量空間,而搜索時輸入的檢索詞也被轉(zhuǎn)換成向量。通過比較文件向量和檢索詞向量的夾角偏差,可以確定文件與檢索詞的相關(guān)程度。
應(yīng)用
向量空間模型在關(guān)鍵詞查詢中通過比較文檔向量和查詢向量之間的角度偏差來計算文檔間的相關(guān)排序。計算向量之間夾角的余弦比直接計算夾角本身更為簡單。余弦值為零表示查詢向量與文檔向量正交,即文檔中不含檢索詞。通過余弦相似性,可以將文本數(shù)據(jù)轉(zhuǎn)換為計算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),從而解決文檔間相似性問題。
tf-idf權(quán)重
在Salton、Wong和Yang提出的傳統(tǒng)向量空間模型中,詞組在文檔向量中的權(quán)重是局部參數(shù)(詞頻tf)和全局參數(shù)(逆文檔頻率idf)的乘積,即tf-idf模型。文檔和查詢之間的余弦相似度通過特定公式計算,其中包括詞組權(quán)重的計算。在簡單的詞組計數(shù)模型中,詞組權(quán)重僅計算詞組出現(xiàn)的次數(shù)。
優(yōu)點(diǎn)
向量空間模型相對于標(biāo)準(zhǔn)布爾模型具有多個優(yōu)點(diǎn),包括基于線性代數(shù)的簡單模型、非二元的詞組權(quán)重、連續(xù)的相似度取值、允許根據(jù)文檔間的相關(guān)性進(jìn)行排序、以及允許局部匹配。
局限
向量空間模型的局限包括不適用于較長文檔、檢索詞組必須與文檔中的詞組精確匹配、語義敏感度不佳、無法表示詞組在文檔中的順序、假定詞組統(tǒng)計上獨(dú)立、以及權(quán)重的直觀性不夠正式。盡管如此,這些局限可以通過各種方法解決,如數(shù)學(xué)技術(shù)(如奇異值分解)和詞匯數(shù)據(jù)庫(如WordNet)。
基于及擴(kuò)展了向量空間模型的模型
向量空間模型的基礎(chǔ)上發(fā)展出了多種模型,包括廣義向量空間模型、基于主題的向量空間模型、潛在語義學(xué)、潛在語義索引、DSIR模型、詞匯鑒別、Rocchio分類等。
以向量空間模型為工具的軟件
向量空間模型的應(yīng)用涵蓋了多種軟件包,包括Apache Lucene、SemanticVectors、Gensim、Compressed 向量 space in C++、文本 to Matrix Generator (TMG)、SenseClusters、S-Space Package等。這些軟件包提供了從文本搜索引擎到文本挖掘工具箱的廣泛功能,支持如潛在語義分析、隨機(jī)投影、聚類、分類等多種文本處理技術(shù)。
參考資料 >