正態分佈太好用了,以至於人們開始濫用它,甚至引發全球金融危機
更新于:2025-03-26 13:14:44

我們總是喜歡尋找規律,追求秩序,渴望事物可以被簡單歸類、精確計算。科學發展到今天,統計學更是讓人產生了一種錯覺:數據有序、世界可測、未來可控。但事實呢?多數人都錯得離譜。

統計學教材的第一頁,幾乎都會寫著它的名字:正態分佈(Normal Distribution)。

為什麼?因為它簡單。只要兩個參數——均值μ、標準差σ,就能描述一切。這條鐘形曲線,描述了人的身高、考試成績、誤差分佈,甚至還和愛因斯坦的布朗運動理論掛上了鉤。數學上,它優雅得可怕,概率積分的計算令人著迷,甚至還能讓π這種圓的常數莫名其妙地出現在概率公式里。

再加上中央極限定理的助攻,只要數據量足夠大,哪怕一開始根本不是正態分佈,取了多個樣本的均值之後,神奇的鐘形曲線就又出現了。這種數學上的“普適性”使得它成為科學界、工業界、金融界最常見的概率分佈模型。

但問題也出在這裡。正態分佈太好用了,以至於人們開始濫用它,甚至在完全不合適的場合強行套用,導致無數錯誤決策,甚至引發全球金融危機。

如果世界真是由無數獨立、微小的因素構成的,正態分佈的確是合理的。但現實並非如此。自然界中,很多變數並不遵守正態分佈。人類社會的運行,商業競爭、財富分配、戰爭衝突——它們根本不符合鍾形曲線的邏輯。

義大利經濟學家帕累托早在上世紀初就發現,社會財富的分佈呈現明顯的不均衡:20%的人掌握80%的財富。這就是著名的“二八法則”。

這並非偶然,而是符合冪律分佈的特徵。冪律分佈的最大特點,就是“頭重尾長”。也就是說,大部分現象集中在小範圍內,而極端情況出現的概率遠比正態分佈預測的高得多。互聯網流量、城市人口、股票市場波動,甚至自然災害的破壞力——無一例外。

根本原因是,這個世界是高度關聯的。

正態分佈的適用條件是獨立性,即每個因素互不影響。但現實世界,特別是人類社會,不可能獨立。信息傳播、市場競爭、社交網路、經濟活動,全都高度相關,一個人的決策往往會影響另一個人的行為。

一旦變數之間存在反饋機制,哪怕一開始是隨機的,最終也會演變成冪律分佈。

最典型的例子就是互聯網流量分佈。一個新網站剛上線時,訪問量可能接近隨機。但一旦某個網站獲得了更多使用者,就更容易被推薦,進一步吸引更多人關注。這種“馬太效應”導致極少數網站吸引了大部分流量,而絕大多數網站的訪問量少得可憐。

金融市場也是如此。傳統經濟學假設市場是理性的,股價波動符合正態分佈。但實際上,大量研究表明,市場的漲跌幅更符合冪律分佈。這也意味著,市場崩盤的可能性遠遠高於傳統金融模型的預測。

2008年次貸危機前,很多金融模型假設股市跌幅不會超過某個“標準差”,認為極端事件是幾乎不可能發生的。結果雷曼兄弟破產,美股崩盤,全球經濟進入衰退。冪律分佈的“重尾效應”一次次地讓市場猝不及防。

為何正態分佈能在科學界一統江湖?因為它符合人類的思維習慣。我們喜歡平均值,認為它能代表“典型情況”。但在冪律分佈的世界裡,平均值毫無意義。

舉個極端的例子:如果讓全球最富有的十個人和普通人一起統計平均財富,結果會顯示“每個人都有幾百億美元”。這顯然是荒謬的。

同樣,計算一個國家的“平均工資”,往往會得出一個遠高於大多數人實際收入的數值。因為少數人的超高收入拉高了均值,而大部分人根本沒分享到這種財富。

更致命的是,正態分佈給人一種“世界是穩定的”錯覺。如果變數服從正態分佈,那意味著極端事件的概率極低。例如,在正態分佈中,5個標準差之外的事件幾乎不可能發生。但現實世界呢?金融市場崩盤、超級火山爆發、黑天鵝事件,這些極端情況並不罕見。

2001年“911”襲擊、2008年金融危機、2020年新冠疫情,每一次全球性衝擊事件,都是金融模型預測不到的。因為這些模型依賴的正態分佈根本不適用於現實世界。

現實世界的概率分佈,比數學教科書複雜得多。有些數據看起來像正態分佈,但仔細分析,其實是對數正態分佈。也就是說,數據的對數值才符合正態分佈,而原始數據是偏態的。

有些數據是泊松分佈,比如排隊系統、地震發生次數。有些數據符合冪律分佈,比如股市波動、財富分佈。還有很多數據分佈根本不屬於任何一種經典統計模型,而是混合分佈、多重冪律、分形結構。簡單歸類、粗暴建模,在數學上可能成立,在現實世界中卻可能是災難。

科學追求的是簡潔的理論,但世界往往是不規則的。正態分佈之所以流行,不僅是因為數學的優雅,更是因為人的懶惰。它簡單、易用,可以讓人快速得出結論。但科學並不等於簡單,統計模型如果不能準確描述現實,那它再優雅也只是自欺欺人。