相信很多人都或多或少的聽過貝葉斯定理,但它到底怎麼用?又怎麼學?許多的書都無法講清楚。但《趣學貝葉斯統計》卻獨闢蹊徑,用一個個趣味十足、腦洞大開的例子,將貝葉斯統計的原理和用途娓娓道來。
在書中你可以評估UFO出現在自家後院中的可能性、《星球大戰》中漢•索羅穿越小行星帶倖存下來的可能性、抓鴨子中大獎遊戲的公平性,並學會用樂高積木理解貝葉斯定理。
簡直是最好的貝葉斯入門書!今天我們就研究如何將貝葉斯定理當作一種概率工具,對不確定性進行邏輯推理。將利用貝葉斯定理來計算和量化在給定數據的情況下,信念有多大的可能性為真。為此,需要使用該定理的三要素——後驗概率、似然和先驗概率。這3個要素將在這場貝葉斯統計和概率探險之旅中頻繁出現。
來源 | 《趣學貝葉斯統計:橡皮鴨、樂高和星球大戰中的統計學》
作者 | [美] 威爾·庫爾特(Will Kurt)
譯者 | 王凌雲
1 貝葉斯定理三要素
貝葉斯定理可以準確地量化所觀察到的數據改變我們信念的概率。這也就是。簡單來說,我們想量化的是:在所觀察到的數據下,自己對信念的堅信程度。在貝葉斯公式中,這個要素的術語是後驗概率(posterior probability,簡稱為“後驗”),也就是將通過貝葉斯定理所求出的解。
為了得到後驗概率,還需要用到下一個要素:似然(likelihood)。它表示在給定信念的情況下,觀察到某一數據的概率,也就是(數據|信念)。
最後,需要量化初始信念的概率,即 (信念)。這一要素在貝葉斯定理中被稱為先驗概率(prior probability,簡稱為“先驗”),它表示我們在看到數據之前的信念強度。似然和先驗結合在一起就會形成後驗。通常情況下,我們需要使用數據的概率 (數據)對後驗歸一化,從而使其值介於0和1之間。然而在實踐中並不總是需要 (數據),所以這個值沒有特殊的名字。
你已經知道,我們將信念稱為假設 ,並用變數 來表示數據。圖8-1展示了貝葉斯定理的各個要素。
圖8-1 貝葉斯定理的要素
在下文中,我們將調查一起犯罪案件,並結合這些要素進行推理。
2 調查犯罪現場
假設,一天你下班回家后,發現家裡的窗戶玻璃碎了,前門開著,你的筆記本電腦也不見了。你的第一反應可能是:“家裡被盜了!”但你是如何得出這個結論的?更重要的是,你如何量化這個信念呢?
(被盜 | 窗戶玻璃碎了, 前門開著, 筆記本電腦不見了)
為了解決這個問題,我們需要補充貝葉斯定理中缺失的部分。
1 求解似然
首先,需要求解似然,具體到這個例子也就是,如果家裡真的被盜了,同樣的數據會被觀察到的概率。換句話說,也就是數據與假設的吻合程度:
(窗戶玻璃碎了, 前門開著, 筆記本電腦不見了 | 被盜)
值得注意的是,儘管在這個例子中,我們只是猜測有哪些數據,但其實也可以通過一些調查來獲得更好的判斷。比如,我們可以去當地警察局詢問盜竊案件犯罪現場的統計數據,或者流覽最近關於盜竊案的新聞報導。這樣就可以得到更準確的似然估計:如果被盜,你看到這些數據的概率。
2 計算先驗概率
接下來,我們需要確定家裡被盜的概率。這也是本例的先驗概率。先驗概率非常重要,因為它允許我們使用背景資訊對似然進行調整。假設前面描述的場景發生在一個荒島上,而你是島上唯一的居民,那麼你家幾乎不可能被盜(至少是被人類)。換一個場景,如果你家位於犯罪率很高的街區,那麼盜竊事件就可能會經常發生。為簡單起見,我們將被盜的先驗概率設定為:
被盜
請記住,如果有不同的或額外的數據,隨時可以調整這個概率。
現在,我們幾乎有了計算后驗概率的所有條件,只差對數據進行歸一化處理。在繼續之前,先來看看未歸一化的後驗概率:
被盜窗戶玻璃碎了, 前門開著, 筆記本電腦不見了 | 被盜
這個值非常小,太令人驚訝了!這是因為直覺告訴我們,根據觀察到的數據,家裡被盜的概率看起來非常大。這裡,我們還沒有分析觀察到這些數據的概率。
3 歸一化數據
被盜 | 窗戶玻璃碎了, 前門開著, 筆記本電腦不見了
分子中的概率相當小,因為沒有對它進行歸一化處理。
0.050
0.006
0.010
0.030
0.005
0.060
0.001
0.300
圖8-2 隨著數據發生概率的減小,後驗概率會增大
思考下面這個極端的例子:你朋友成為百萬富翁的“唯二”途徑是中彩票或者從某個連他自己都不知道的家族成員那裡繼承遺產。因此,你朋友成為百萬富翁的概率非常小。然而,你發現這位朋友確實成了百萬富翁。那麼,他中彩票的概率就變大了,因為這是他成為百萬富翁僅有的兩種方式之一。
3 考慮備擇假設
現在提出另外一個假設,並將它與原來的假設進行比較。新假設包括以下3個事件。
(1) 鄰居家孩子把棒球打到了窗戶上。
(2) 你離開家時忘了鎖門。
(3) 你忘了自己帶筆記本電腦去上班並把它落在了辦公室。
1 備擇假設的似然
如果假設中的所有事件都發生了,那麼你肯定會觀察到窗戶玻璃碎了、前門開著以及筆記本電腦不見了。
2 備擇假設的先驗概率
先驗概率表示的是這3個事件都發生的可能性,這也意味著需要先計算出其中每個事件的概率,然後通過乘法法則來確定先驗概率。在這個例子中,我們假設每個可能的結果都是條件獨立的。
備擇假設的第一項內容是,鄰居家孩子打棒球時不小心打碎了窗戶玻璃。雖然這在電影中很常見,但現實中我從未聽說過這種情況,更多的情況是發生了盜竊,所以我們假設棒球打碎窗戶玻璃的概率是被盜概率的一半:
備擇假設的第二項內容是你忘了鎖門。這種情況相當普遍,所以假設它每月發生一次:
最後,讓我們來看看將筆記本計算機落在辦公室的概率。雖然帶著筆記本電腦去上班並將它落在辦公室可能很常見,但完全忘記帶著它去上班的情況不太常見。假設這種情況每年會發生一次:
正如你看到的,這3個事件同時發生的先驗概率很小。現在我們需要計算出這兩個假設的後驗概率以進行比較。
3 備擇假設的後驗概率
4 比較非歸一化的後驗概率
推薦閱讀
《趣學貝葉斯統計:橡皮鴨、樂高和星球大戰中的統計學》
作者:[美] 威爾·庫爾特(Will Kurt)
譯者:王凌雲
本書用十余個趣味十足、腦洞大開的例子,將貝葉斯統計的原理和用途娓娓道來。你將從直覺出發,自然而然地習得數學思維。讀完本書,你會發現自己開始從概率角度思考每一個問題,並能坦然面對不確定性,做出更好的決策。
02
《貝葉斯的博弈:數學、思維與人工智慧》
作者:黃黎原
譯者:方弦
法國數學類科普書、大學數學參考及教材類圖書暢銷書目,在機器學習、人工智慧、邏輯學和哲學等眾多領域中,探索貝葉斯定理蘊藏的智慧與哲理。
貝葉斯定理一旦與演演算法相結合,就不再是一套枯燥的數學理論或認識論,而變成了應用廣泛的知識寶庫,催生了眾多現代數學定理,以及令人稱道的實踐成果。
《概率論沉思錄》
作者:埃德溫·湯普森·傑恩斯
譯者:廖海仁
著名數學物理學家,聖路易斯華盛頓大學和斯坦福大學教授,統計力學和概率統計推斷方面權謀埃德溫·湯普森·傑恩斯,40年思想著作;
無數讀者苦等15年的概率論神作,英文版豆瓣評分9.4高分;
概率論作為邏輯的延伸,是所有科學推斷的基礎。本書收集了概率統計的各種線索,將概率和統計推斷融合在一起,用新的觀點生動地描述了概率論在物理學、數學、經濟學、化學和生物學等領域中的廣泛應用,尤其是闡述了貝葉斯理論的豐富應用,彌補了傳統概率論和統計學的不足,並揭開了眾多悖論背後的玄機。
Like
Share
Wow
Comment