沒錯,首位數字裡面,1出現的概率高達30%,而9出現概率只有4.6%,乍一看有點反直覺。
這是本福特定律,已經應用在審計領域。
比如當年安然財務造假,安然公司公佈的數據中,首位數字分佈嚴重偏離本福特定律,5和6出現的頻率過高,1出現的頻率遠低於30%。然後就開始深入查賬,發現高管通過特殊目的實體轉移債務,修飾財務報表。
1881年,美國天文學家西蒙發現了一個秘密,以數位1開頭的頁碼磨損最嚴重。
1938年,電氣工程師本福特驗證了它的普適性。
本福特定律的公式很簡單
首位數位n出現的概率 = log₁₀(1 + 1/n)
數位1出現概率≈log₁₀2,有30.1%。
數位9出現概率≈log₁₀(10/9),只有4.6%
舉個通俗的例子。
假設用100萬的本金炒股。
100萬到200萬,需要增長100%。
800萬到900萬,只需要增長12.5%
想要首位數位停留在高位,增長速度必須越來越慢,這在現實世界中幾乎不可能。
數據天然傾向於在低位停留更久,所以1有絕對優勢。
但如果是人為干涉,比如身份證號等人工編排的數據,強制均勻分佈,就不符合本福特定律。
本福特定律最常見的應用,就是審計查賬。
用本福特定律分析企業財務報表、發票、交易記錄,虛假帳目可能因人為編造數位而偏離本福特分佈。
還能判斷選舉舞弊、論文造假、經濟數據水分、偷稅漏稅、保險索賠。
本福特定律成立的前提是,數據需要覆蓋多個數量級,無人設定範圍,樣本量要足夠的大,至少上千。
本福特定律僅提示異常,還需結合其他證據才能判斷數據造假。