必威电竞|足球世界杯竞猜平台

本福特定律
來源:互聯網

本福特定律(英文名:Benford's Law,別名:本福德法則),是美國天文學家、數學家Newcomb于1881年首次發現,后經物理學家本福特通過進一步的實證研究和驗證,于1938年3月發表于《美國哲學學會論文集》上的數字統計定律。

本福特定律認為在一組隨機的數字中,各個數字的首位存在一定規律,越小的數字出現的概率越高。本福特定律總結了自然生成的數據集首位數(第一位數)及其他各位數的分布規律,首位數為1~9的概率依次為30.1%、17.6%、12.5%、9.7%、7.9%、6.7%、5.8%、5.1%和4.6%。

由于本福特定律具有適用范圍廣、準確性高且不需增加外部數據或參數的特點,其被大量用于進行數據異常的偵測,如大樣本數據異常點的偵測。且由于造假者進行數據偽造時很難編制出既滿足本福特定律又符合數據邏輯的數據集,本福特定律還被大量用于偽造數據檢測。

定義

本福特定律,也稱為本福德法則,說明一堆從實際生活得出的數據中,以1為首位數字的數出現的概率約為總數的三成,接近期望值1/9的3倍,推廣來說,越大的數字,以它為首位的數出現的概率就越低。

精確地用數學表述則是,在進位制中,以數字為首位數字的數出現的概率為。在十進制中,以數字為首位數字的數出現的概率為

以上參考資料

歷史由來

天文學家紐康(Simon Newcomb)常常使用對數表進行計算。1881年,他發現對數表的前幾頁總是被人翻得多,書頁甚至都有些破損了,而后面的書頁幾乎是全新的。他隱約感覺到:數字在自然界中出現的機會好像不是均等的,1開頭的數特別多,所以才會有對數表的前幾頁被人翻爛,而后面的無人問津的情況發生。為此他寫了一篇論文。可惜,他的論文沒有引起人們的注意。半個世紀之后的1938年,物理學家本福特(Frank Benford)也發現了這個規律,他的發現引起了大家的關注,于是這個規律就被稱為本福特定律。本福特收集了世界河流流域面積、人口、物理常數、數學數列、原子量、成本數據、報刊雜志中等20組數據,共計2萬多個樣本,計算了各組數據中1~9在第一位出現的頻率。結果表明,有相當一部分數據集符合或基本符合對數分布律,也有一部分偏離對數分布律,但將所有數據集合并后,其結果非常接近對數分布律。本福特的研究成果發表于1938年3月《美國哲學學會論文集》,題為“反常的數字規律"。之所以“反常”,是因為按照直覺,數字出現在第一位的概率應該是相同的,但第一位數的對數分布律卻背離了人們的直覺。本福特定律實質上是指數增長在世間萬物的體現。在現實生活中,本福特定律可用于檢查各種數據是否有造假。

1972年,Hal Varian提出該定律可用于檢查某些公共計劃經濟數據的真偽。1992年,MarkJ.Nigrini在其博士論文《數字頻率分析在所得稅避稅中的應用》中提出以該定律檢查是否存在偽賬。2009年,西班牙數學家在素數中發現了一種新模式,并且驚訝于為何現在(2009年)才為人發現,雖然素數一般被認為是隨機分布的,但西班牙數學家發現素數數列中每個素數的首位數字有明顯的分布規律,它可以被描述為素數的本福特定律。這項新發現除了提供對素數屬性的新洞見之外,還能應用于欺騙檢測和股票市場分析等領域。

應用及條件

應用條件

第一,數據是自然產生的。例如,新生兒數量、死亡人數、世界各國國土面積等,就滿足這個條件。而人為規定或者設計的,如電話號碼、郵政編碼,以及上文提到的老師特意設計的考試難度而產生的學生分數,都不滿足這個條件。第二,數據的跨度大例如,不同國家的人口數,多的幾十億,少的只有幾百萬,就滿足這一條件。而成人的身高基本在1.4~2.5米之間,哪怕統計全世界成人的身高,數據跨度都太小,就不滿足這個條件。第三,數據量要足夠大。如果總共只有十幾個數據,那肯定是沒法滿足的。

應用范圍

由于本福特定律適用范圍廣、準確性高且不需增加外部數據或參數的特點,近年來其被大量用于進行數據異常的偵測,如大樣本數據異常點的偵測。且由于造假者進行數據偽造時很難編制出既滿足本福特定律又符合數據邏輯的數據集,本福特定律還被大量用于偽造數據檢測。本福特定律是一條初看起來有些奇怪、不符合直覺的定律,不過這條定律用處很大。后來數學家證明了它的結論。由于本福特定律適用于大多數財務方面的數據,因此在現實生活中,它可以用來檢查財務數據是否造假。

參考資料 >

英美學者論文:本福特定律對數據進行分析驗證后,沒有發現中國數據造假.環球網.2024-02-02

生活家百科家居網