必威电竞|足球世界杯竞猜平台

齊夫定律
來源:互聯網

齊夫定律,文獻計量學基本定律。哈佛大學教授G.K.齊夫(G.K.Zipf)在1949年發表的。他通過對文獻詞頻規律的研究認為:若把一篇較長的文章中每個詞出現的頻次從高到低進行遞減排列,其數量關系特征呈雙曲線分布。該定律應用于情報檢索用的詞表的編制和情報檢索系統中文檔結構的設計。

定律內容

齊夫定律的基本表述為:在自然語言的語庫里,一個單詞出現的頻率與它在頻率表里的排名成反比。所以,頻率最高的單詞出現的頻率大約是出現頻率第二位的單詞的2倍,而出現頻率第二位的單詞則是出現頻率第四位的單詞的2倍。齊夫定律很容易用點陣圖觀察,坐標為log(排名)和log(頻率)。比如,“the”用上述表述可以描述為x?=?log(1),?y?=?log(69971)的點。如果所有的點接近一條直線,那么它就遵循齊夫定律。最簡單的齊夫定律的例子是“1/f函數”。給出一組齊夫分布的頻率,按照從最常見到非常見排列,第二常見的頻率是最常見頻率的出現次數的1/2,第三常見的頻率是最常見的頻率的1/3,第n常見的頻率是最常見頻率出現次數的1/n。然而,這并不精確,因為所有的項必須出現一個整數次數,一個單詞不可能出現2.5次。

如果將一篇較長的文章(約5000字以上)中每個詞按其出現頻次遞減排列起來(高頻詞在前,低頻詞在后),并用自然數給這些詞編上等級序號,出現頻次最高的為1級,其次為2級……這樣一直到D級,如果用f表示詞在文章中出現的頻次,用r表示詞的等級序號,則有:fr=C(C為常數)。如果等級r與頻次f都取對數,則雙曲線會變成一條直線。與之等價的數學表達式為:?klnr+lnf-lnC?。如果說fr=C是齊夫定律的一般形式,FRK=C便是齊夫定律的修正形式。

理論

這個“定律”是哈佛大學的語言學家齊夫于1949年發表的。齊夫定律是一個實驗定律,而非理論定律。齊夫分布可以在很多現象中被觀察到。然而,在一個廣域范圍內并且做出適當的近似,許多自然現象都符合齊夫定律。

比如,在某人語料庫中,“the”是最常見的單詞,它在這個語料庫中出現了大約7%(100萬單詞中出現69971次)。正如齊夫定律中所描述的一樣,出現次數為第二位的單詞“of”占了整個語料庫中的3.5%(36411次),之后的是“and”(28852次)。僅僅135個字匯就占了褐色語料庫的一半。

參考資料 >

齊夫定律的詞等級確定方法探討.www.cnki.com.cn.2011-12-08

知網空間.www.cnki.com.cn.2011-12-07

關于齊夫第二定律的研究.www.cnki.com.cn.2011-12-08

生活家百科家居網