DeepMind 詳解 AGI 可能給世界帶來的威脅
更新于:2025-04-06 01:01:56

隨著 AI 熱潮席捲互聯網,科技和商業領袖們已經開始關注下一個階段。AGI (通用人工智慧) 指的是具有類人智慧和能力的機器。如果當今的 AI 系統正在朝著 AGI 發展,我們需要新的方法來確保這樣的機器不會與人類利益相悖。

遺憾的是,我們並沒有像以撒·阿西莫夫的機器人三大法則那樣優雅的解決方案。DeepMind 的研究人員一直在研究這個問題,併發佈了一份新的技術論文 (PDF),解釋了如何安全開發 AGI,你可以隨時下載查看。

這份報告在參考文獻之前就已經達到了 108 頁,內容十分詳實。雖然 AI 領域的一些人認為 AGI 只是一個遙不可及的夢想,但 DeepMind 論文的作者預測它可能在 2030 年實現。基於這一觀點,他們致力於理解類人合成智能的風險,並承認這可能會導致"嚴重危害"。

AGI 對人類的所有潛在威脅

這項研究識別出了四種可能的 AGI 風險,並提出了相應的緩解建議。由公司聯合創始人 Shane Legg 領導的 DeepMind 團隊將 AGI 的負面影響分為濫用、失調、失誤和結構性風險。

第一個可能的問題是濫用,這在本質上與當前的 AI 風險類似。但由於 AGI 本身更加強大,它可能造成的破壞也更大。例如,不法分子獲取 AGI 訪問權後可能濫用系統作惡,要求系統識別和利用零日漏洞,或創造可用作生物武器的定製病毒。

DeepMind 表示,開發 AGI 的公司必須進行廣泛測試並制定強有力的后訓練安全協定。本質上,就是將我們目前的 AI 防護措施升級。他們還建議設計一種完全抑制危險能力的方法,有時稱為"遺忘",但目前尚不清楚在不嚴重限制模型的情況下是否可行。

失調在當前的生成式 AI 中基本不需要擔心。這類 AGI 危害被設想為擺脫了設計者限制的失控機器。想想《終結者》?

為避免這種情況,DeepMind 建議開發者使用增強監督等技術,讓兩個 AI 副本互相檢查輸出,以創建不太可能失控的穩健系統。如果失敗,DeepMind 建議進行密集壓力測試和監控,以觀察 AI 是否有任何背叛我們的跡象。將 AGI 置於具有嚴格安全性和直接人工監督的虛擬沙盒中可以幫助緩解失調帶來的問題。簡而言之,確保有一個"關閉"開關。

如果 AI 不知道其輸出會造成危害,而人類操作者也沒有這樣的意圖,那就是失誤。在當前的 AI 系統中這種情況很常見——還記得 Google 說要在披薩上塗膠水嗎?但對 AGI 而言,這種"膠水"可能會更難處理。DeepMind 指出,軍方可能會因"競爭壓力"而部署 AGI,但由於這些系統將被賦予比當今 AI 更複雜的功能,它們可能會犯下嚴重錯誤。

該論文並沒有很好的解決方案來緩解失誤。歸根結底就是不要讓 AGI 一開始就變得太強大。DeepMind 呼籲緩慢部署並限制 AGI 的許可權。研究還建議在實施前通過"遮罩"系統傳遞 AGI 命令,確保其安全性。

最後是結構性風險,DeepMind 將其定義為多主體系統對我們已經複雜的人類生存狀態造成的無意但真實的影響。例如,AGI 可能會創造出如此可信的虛假資訊,以至於我們不再知道該相信誰或什麼。論文還提出 AGI 可能會通過制定強硬的關稅計劃等方式,逐漸累積對經濟和政治系統的控制。然後有一天,我們抬頭發現機器而不是我們在掌控一切。這類風險也是最難防範的,因為它取決於未來人們、基礎設施和機構的運作方式。

五年內實現 AGI?

沒人知道思考機器是否真的只需幾年就能實現,但很多科技領袖都有足夠的信心這麼說。預測 AGI 出現時間的部分難度在於,我們仍在推測類人智慧將如何在機器中體現。過去幾年使用生成式 AI 系統的人都看到了真實的、切實的進步,但這個發展軌跡是否能通向真正的類人能力?

我們最近與 Google 的 Gemini 產品管理總監 Tulsee Doshi 討論了包括 AGI 在內的一系列 AI 話題。"不同的人對 AGI 有不同的定義,所以取決於你與誰交談,我們距離 AGI 有多近或多遠是一個不同的對話,"Doshi 說。"我要說的是,大語言模型、Gemini 和訓練更智慧的模型正在朝著極其智慧的模型方向發展。這本身就具有巨大的價值。"

這篇論文並非 AGI 安全性的最終定論—— DeepMind 指出這隻是"重要對話的起點"。如果該團隊是對的,AGI 將在短短五年內改變世界,那麼這些對話需要儘快進行。如果不是,那麼很多人可能會顯得有點愚蠢。

AI的奉獻
AI的奉獻
2025-03-30 23:57:52