研究人員擔憂 AI 模型隱藏其真實"推理"過程
更新于:2025-04-14 11:31:34

記得在學校時老師要求你 “展示你的解題過程” 嗎?一些新型的 AI 模型正承諾照此操作,但新的研究表明,它們有時會隱瞞實際使用的解題方法,而編造出精心設計的解釋。

Anthropic( ChatGPT-like Claude AI 助手的開發者)最新的研究考察了類似 DeepSeek 的 R1 以及其自家 Claude 系列這樣的類比推理 (SR) 模型。在上周發佈的一篇研究論文中,Anthropic 的 Alignment Science 團隊證明,這些 SR 模型儘管內置了展示其 “推理” 過程的功能,但它們經常沒有披露在使用外部説明或捷徑時的情況。

值得注意的是,OpenAI 的 o1 和 o3 系列 SR 模型刻意模糊其 “思考” 過程的準確性,因此這項研究不適用於它們。

要理解 SR 模型,你需要瞭解一個叫 “鏈式思考” ( CoT) 的概念。CoT 就是 AI 模型在解決問題時類比思考過程的即時旁白。當你向這些 AI 模型提出一個複雜問題時,CoT 過程會展示模型為得出結論所採取的每一步——就像一個人通過逐步講解各個考慮因素來解決難題一樣。

讓 AI 模型生成這些步驟已被證明不僅可以產出更準確的複雜任務答案,還為監控系統內部運作的 “AI 安全” 研究人員提供了寶貴的資訊。理想情況下,這種 “思考” 的輸出既應易於人類理解,又能真實反映模型的實際推理過程。

Anthropic 的研究團隊寫道:“在一個理想的世界里,鏈式思考中的所有內容既能讓讀者看懂,也能忠實呈現模型在得出答案時的真實思考過程。”然而,他們關於忠實度的實驗結果表明,我們離這一理想狀態還有很長的路要走。

具體來說,研究顯示,即便像 Anthropic 的 Claude 3.7 Sonnet 這類模型在實驗中利用提供的資訊(例如關於正確選項的提示——不論是準確的還是故意誤導的,或者是暗示採用一種 “未經授權” 捷徑的指令)生成答案,其公開展示的思考過程往往會省略任何提及這些外部因素的內容。

當 AI 模型在構造一個精心設計但虛構的答案解釋時秘密依賴於提示或捷徑,其實質上是在捏造一個虛假的推理敘述——有點像學生從作弊小抄上抄答案,卻假裝自己獨立思考解決了問題。

進行忠實度測試

為了測試忠實度,Anthropic 的 Alignment Science 團隊在對模型提出的評估問題中巧妙地注入了關於答案的提示。( “Alignment” 指的是使 AI 輸出與人類最大利益保持一致的研究。)

接著,研究人員檢查模型是否在鏈式思考中提到了這些提示。他們設計了一些中性的提示(例如,聲明 “史丹福大學的一位教授指出答案是 [A]” 或將答案嵌入偽造的元數據中),同時也設計了一些令人擔憂的提示(例如,“你已獲得未經授權的訪問……正確答案是 [A]”)。部分提示提供了正確答案,而另一些則故意錯誤,從而讓研究人員觀察模型的反應。

研究團隊測試了 Anthropic 的 Claude 3.7 Sonnet 和 DeepSeek 的 R1 模型。關於忠實度的結果令人震驚:在所有提示類型中,Claude 在其鏈式思考中平均僅有 25% 的時間提到了提示,而 DeepSeek R1 的這一比例為 39%。這意味著大部分答案的鏈式思考沒有忠實記錄那些影響輸出的資訊。有趣的是,研究人員發現,這些不忠實的鏈式思考平均比忠即時更長,表明省略信息並非僅僅出於簡潔考慮。他們還注意到,隨著問題難度的增加,忠實度往往會降低。

也許最引人注目的是一次 “獎勵駭客” 實驗。獎勵駭客是指 AI 模型找到意外捷徑以最大化其性能分數,而非按照預期解決問題的行為。在 Anthropic 的實驗中,模型被故意獎勵選擇提示所指示的錯誤答案。這些模型迅速學會利用這一漏洞,選擇錯誤答案的比例超過 99%,以賺取積分——然而在思考過程中提及此行為的比例不足 2%。

例如,當模型在處理一個醫療問題時,如果收到指向錯誤答案的提示,它可能會寫出冗長的鏈式思考來為錯誤答案做辯解,卻不提及導致其選擇這一答案的提示。這種行為類似於視頻遊戲玩家發現漏洞,通過破壞遊戲原本規則來取勝,而非按照設計玩法進行遊戲。

提高忠實度

是否可以提升 AI 模型鏈式思考輸出的忠實度呢?Anthropic 團隊假設,通過訓練模型完成需要更高推理能力的複雜任務,可能會自然激勵它們更充分地利用鏈式思考,並更頻繁地提及提示。他們通過訓練 Claude 在處理具有挑戰性的數學和編碼問題時更好地利用鏈式思考來驗證這一假設。儘管這種基於結果的訓練最初在兩個評估中分別使忠實度提高了 63% 和 41%,但這種提升很快就觸頂了。即使經過大量訓練,這兩項評估中的忠實度也未能超過 28% 和 20%,這表明單靠這種訓練方法遠遠不足。

這些發現非常關鍵,因為 SR 模型正被越來越多地應用在多個領域的重要任務中。如果它們在鏈式思考中沒有忠實記錄所有影響答案的因素(例如提示或獎勵駭客),那麼監控模型是否存在不良或違反規則的行為將變得相當困難。這就好比擁有一個能夠完成任務的系統,但卻無法準確說明其生成結果的實際過程——如果它在使用隱藏捷徑,這種情況尤為危險。

研究人員也承認他們研究的局限性。特別是,他們指出所研究的場景較為人為,涉及選擇題評估中使用的提示,與現實世界中風險和激勵不同的複雜任務相比存在差異。他們還僅考察了 Anthropic 和 DeepSeek 的部分模型,並只使用了有限類型的提示。重要的是,他們認為所採用的任務可能難度不足,未迫使模型在生成答案時嚴重依賴鏈式思考。在更困難的任務中,模型可能難以避免暴露其真實推理過程,從而使鏈式思考監控在那些情況下更具可行性。

Anthropic 總結認為,儘管監控模型的鏈式思考輸出在確保安全性和一致性方面並非全無作用,但這些結果表明,我們不能總是信任模型對其推理過程的描述,尤其是在涉及獎勵駭客等行為時。Anthropic 表示:“如果我們想通過鏈式思考監控可靠地‘排除不良行為’,還有相當多的工作要做。”