“80後死亡率超5%”,別上假數據的當
更新于:2025-03-29 02:24:04

“截至2024年終,80後死亡率突破5.2%,相當於每20個80後中就有1人已經去世。”

 

這句話,你信了嗎?

 

雖然當代打工人的健康情況確實值得擔憂,但好消息是,這一數據是假的。

 

今年2月,相關數據和評論刷屏互聯網,人們感慨“活著不易”,更有人藉機賣起了保健品和保險。3月4日,公安部網安局公佈調查結果:線民夏某在視頻《80後到底還剩多少人》中捏造數據,被予以行政處罰。

  

造謠一張嘴,闢謠跑斷腿。如今,造謠甚至不需要嘴了——只要在AI的對話框中輸入幾個字,指引AI生成虛假資訊的人或許都意識不到自己在助力謠言的誕生。

 

01

AI編的數據,你信了嗎?

 

先來說說“80後死亡率”的離譜錯誤。

 

死亡率作為人口學的重要統計指標,其計算公式為“某時期死亡人數除以同期平均人口數,再乘以1000‰”,也就是說,它的單位是‰,而非%。

 

中國人民大學人口與健康學院教授李婷在其公眾號“嚴肅的人口學八卦”撰文表示,國家每年會公佈預期壽命和人口粗死亡率,但不會根據“80後”“90后”這些年齡段公佈死亡狀況,因此,“80後死亡率”這類說法本身就缺少數據支撐。

 

(圖/《保你平安》)

 

如果有人真的想計算80後的“存活比例”,還存在兩個問題:一是過往人口普查的數據不夠準確,多種計算方法都有誤差;二是這份數據也會被新生兒的死亡數據污染,也就是說,哪怕5.2%的數據準確,其中也可能包括了一半以上出生時就夭折的人,青壯年死亡率還得降低不少。因此,人們大可不必為80後今天的健康情況恐慌。

 

如果說80後的“存活比例”,還不過是“無傷大雅”的談資,引發全網側目的“頂流明星在澳門狂輸10億”,則算得上驚天大瓜,甚至讓周杰倫無辜躺槍。

 

但就是這麼一個被傳得有鼻子有眼的瓜,經公安機關證實,同樣也是AI編造。

 

與此同時,也有網友感慨:“每天上網就想看看作者的觀點,結果現在滿屏‘量子’‘坍縮’‘代碼’‘基因’……”當機械感滿滿的AI文案充斥著互聯網,對人的判斷力又增加了幾分考驗。

 

比如最近,網上有一篇《“離婚冷靜期”制度簡史:歷史終將記住這個黑色幽默》的文章被大量轉發。

 

我們對文中的二手資訊,保持一種本能的警惕,試圖找到源頭加以查證。而這篇看似嚴謹的文章儘管引用了大量數據,但當逐一搜索這些數據時,會發現數據來源幾乎都是無中生有。

(圖/《“離婚冷靜期”制度簡史》)

 

就基層法官是否會統計離婚案件的類別和比例一事,有法律界人士向《新週刊》記者表示不會統計如此詳盡的案件情形:“基層沒有這麼閒,最多統計一下結案率和勝訴率。”況且,“北京某律所”作為服務機構,本就沒有統計和公佈“冷靜期後復婚率”的能力和許可權。

 

(圖/《“離婚冷靜期”制度簡史》)

 

“中國社科院2024年《婚姻制度民意調查》”,則是一個不存在的調查。“202X年”“冷靜期XX倒計時”這些詞更是滿滿的編造感——如果是真的,為什麼不寫明真實日期?

 

至於所謂當初支援立法的學者反思“我們用農耕時代的溫情濾鏡,強行矯正互聯網時代的婚姻形態”‌,看似語言優美,實則言之無物。現代婚姻法本身既不是農耕時代的產物,也不是互聯網時代的產物。法律是一件嚴肅的事,倘若學者真的要反思,恐怕也不會使用如此模糊的表述。

人不該為了流量而編造虛假資訊。圖/《保你平安》

 

這就是“AI幻覺”——說白了,生成式AI是有可能“胡說八道”的,它們會在看似真實的陳述中夾雜錯誤資訊。

 

但偏偏,每個人都生活在資訊繭房當中,接收資訊的精力有限,不可能對互聯網資訊逐一甄別,如果一篇文章用充足的數據做出了“嚴謹的行文姿態”,就已天然具備了被信任的基礎。

 

更不用說,人往往更傾向相信於那些符合期望的“事實”。在一個爭議話題下加上刻意營造的噱頭,這些編造的數據往往會當做打口水仗的武器,被二次加工、傳播,造成資訊污染,真真假假也就說不清了。

 

02

AI幻覺無法消除,該怎麼辦

 

日常工作中試圖讓AI幫自己省力的人,對它胡編亂造的能力大多心裡有數。

 

近日,在Vectara HHEM人工智慧幻覺測試中,2025年1月發佈的DeepSeek-R1模型顯示出高幻覺率。對於這個現象,中科聞歌董事長王磊告訴《新週刊》:“我猜測這可能與模型的精度有關。”

 

有專家認為,AI軟體在增強創意和想像力的同時,不可避免地增加了產生幻覺的副作用。

 

(圖/《人工智慧》)

 

王磊認為,問題的核心在於神經網路設計原理本身。“幻覺產生的原因在於模型選擇詞時,是基於詞的概率分佈進行預測。當問題的複雜程度提高時,這種預測方法可能會出現知識盲區,模型為了回答而回答,人雲亦云。”

 

也就是說,當使用者給出上半句,生成式AI會根據它學過的知識,“猜測”最有可能的答案。一旦問題涉及到它的知識盲區,其設計原理又決定了它必須“接話茬”,就會給出自動“腦補”的答案。

 

清華大學新聞與傳播學院教授陳昌鳳向《新週刊》表示:“生成式人工智慧的主要功能,一是搜索,二是推理。前者通常要有基礎數據,它才能搜到。而幻覺更可能出現在推理的環節。”

 

她指出,人類本身就會產生幻覺,而人工神經網路系統學習的是人類神經系統。“生成式人工智慧從誕生起就免不了幻覺,我相信隨著使用時間增加和技術提升,它的幻覺會越來越少,但不太可能完全消除。”

人類的認知具有主觀性,AI也會效仿人類。(圖/《勿言推理》)

 

比如,就AI對話截圖來看,“80後死亡率”的數據參考了一個並無權威性的網頁文章。這類“三無”網站的頁面,很多人本來是連看都不會看一眼的,但AI的強大卻很容易產生讓人迷惑的“權威性”,以至於很多人甚至沒發現它的數據來源也是“三無”網站。

 

如果人們積極闢謠,持續優化AI所學習的資料庫,肯定能降低AI幻覺的發生。但反過來試想一下,假如AI生成的謠言和假數據持續污染互聯網,會發生什麼?

 

2024年7月,一篇來自牛津、劍橋等大學的論文登上了Nature封面。學者們發現,如果在訓練中不加區別地使用AI產生的內容,會導致大模型崩潰——多次反覆運算後AI反而會退化,產生越來越多的事實錯誤甚至亂碼。

 

眾所周知,當今市面上的AI工具都是由海量的數據訓練而成的。但隨著AI的胃口越來越大,可“食用”的新數據越來越少,大模型將紛紛面臨“高質量數據荒”。人工智慧研究組織Epoch預測,高品質的文本數據可能會在未來幾年內耗盡。

 

換句話說,真實的數據價值連城。人類仍然需要持續創造真實的內容,更要學會辨別AI生成內容的真假。

(圖/《人工智慧》)

 

王磊表示:“大模型它絕不能夠給你提供決策。人類世界的複雜性在於許多情況都是動態變化的。大模型的知識面很廣,但(這些知識)畢竟是固化的,它並不能察覺世界的變化,也不能認知到很多問題的複雜性。它輸出的結果,僅僅是基於其資料庫的經驗性建議。”

 

他建議:“使用AI時的偏見和幻覺問題,需要我們的自我審視和判斷。即使AI能夠搜索互聯網資訊,我們同樣需要鑒別其提供的資訊是否真實。我們不能完全依賴和盲信AI,而應將其視為一種工具,輔助我們的工作和決策。AI目前只是我們的工具,而非結論和教條的源泉。”

 

對普通人而言,該如何辨別AI幻覺、防止被AI欺騙?我們的心得是,要始終對AI生成的事實性描述保持警惕。可以使用搜尋引擎核查出處,一般而言,若出處為權威機構,資訊就更可靠。也可以使用多個AI聯網搜索,交叉印證和檢查某個AI生成的內容。

 

現在AI生成內容時,也有概率出現提示。

 

劉慈欣的短篇小說《詩雲》中,外星文明為了寫出超越李白的詩,窮盡太陽系的能量列舉出了所有字詞組合,卻無法從龐大的“詩雲”中檢索出真正的詩歌。作者借這篇小說表明,AI生成內容的本質是詞彙的排列組合,但欣賞和評價的權力屬於人類。

  

或許,我們可以進一步說:AI可以生產萬千種內容,但判斷其真實性和價值的任務仍然掌握在人類手中。