向量模型是一種用于信息檢索的模型,旨在克服布爾模型中二元權重的限制,提出了一種更適合部分匹配的框架。該模型通過對索引術語賦予非二元的權重,能夠更好地反映文檔與查詢串之間的相關度,并按相關度降序排列搜索結果。向量模型的優勢在于其返回的結果集更能滿足用戶的需求。
基本原理
向量模型的基本原理是將文檔和查詢串分別表示為高維向量,并通過余弦相似度衡量它們之間的相關性。具體而言,文檔Dj和查詢串q均表示為t維向量,其相關性的計算采用余弦相似度公式:
其中,|Dj|和|q|分別為文檔和查詢向量的范數。這個公式考慮到了文檔和查詢向量的規范化,使得向量模型可以根據查詢的相關度來標記文檔的秩,而不是像布爾模型那樣僅有相關或不相關的二元狀態。
索引術語權重
向量模型中,索引術語的權重可以通過多種方法獲取,通常涉及聚類算法。這些算法的目標是將對象集C劃分為與模糊描述集合A相關的對象集和不相關的對象集。在信息檢索領域,這一過程被視為聚類問題,其中文檔集C對應于對象集,查詢串q對應于模糊描述集合A。向量模型通過計算術語在文檔中的出現頻率以及逆文檔頻率(IDF)來量化內聚相關度和相異性。術語的規格化頻率由如下公式給出:
其中,N為總文檔數,n(t)為包含術語t的文檔數,f(t,d)為術語t在文檔d中出現的次數,|d|為文檔d中所有單詞的數量。術語t的倒置文檔頻率IDF(t)定義為:
術語t相對于文檔d的權重w(t,d)由此得出。查詢術語的權重也可以通過類似的方式計算。
優點
向量模型的主要優勢包括:
- 提供了更為精確的術語權重算法,提升了檢索性能;
- 實現了部分匹配的策略,使搜索結果更貼近用戶需求;
- 根據查詢串與文檔的相關度,通過余弦排名公式對結果文檔進行排序。
參考資料 >
網絡信息檢索(一)檢索模型:布爾,向量,概率檢索.CSDN博客.2024-11-05
相似度計算方法(三) 余弦相似度.CSDN博客.2024-11-05
萬物皆可Embedding,深入理解向量索引的構建和檢索.CSDN博客.2024-11-05