如何提升AI模型的認知?思考方式是關鍵
更新于:2025-03-25 23:38:09

研究發現,Qwen天生擅長驗證、回溯等推理行為,而Llama需通過訓練誘導這些習慣,才能在強化學習中實現自我提升。

想像一下,當你面對一個棘手的數學題時,會怎麼做?可能會多花點時間,仔細推敲每一步,甚至在走不通時退回去重來。這種深思熟慮的能力,如今也開始在語言模型身上顯現。近年來,通過強化學習(RL),一些模型學會了在複雜問題上“慢下來思考”,就像人類專家那樣。然而,有趣的是,有些模型進步神速,有些卻很快停滯。比如,在《倒計時》遊戲的相同訓練下,Qwen-2.5-3B遠遠甩開Llama-3.2-3B。這不禁讓人好奇:是什麼讓某些模型能不斷自我提升?

為了解開這個謎團,研究者們聚焦於四種關鍵的認知行為:驗證、回溯、設定子目標和逆向推理。這些習慣在人類解決問題時很常見——一位數學家會檢查證明的每一步,遇到矛盾時放棄死胡同,把大問題拆成小塊,從結果反推起因。研究發現,Qwen天生就帶有這些特質,尤其擅長驗證和回溯,而Llama起初幾乎完全欠缺。正是這些行為,讓Qwen能在強化學習中如魚得水。

那麼,能不能讓Llama也學會這些本領呢?實驗給出了一線希望。通過給Llama提供一些包含這些推理行為的範例,比如回溯的思考痕跡,它在強化學習中的表現突飛猛進,甚至追平了Qwen。更令人驚訝的是,即便這些示例的答案是錯的,只要推理模式正確,效果依然顯著。這說明,關鍵不在於答案對錯,而在於模型是否掌握了這些認知習慣。

研究並未止步於此。研究者們還嘗試從OpenWebMath數據中篩選出強調推理行為的內容,繼續預訓練Llama。結果令人振奮:Llama的進步軌跡逐漸與Qwen看齊。這表明,一個模型的初始推理能力,決定了它能否有效利用額外的計算資源。Qwen這樣的“天賦選手”自然占優,而Llama則需要後天培養。

回想人類解題的場景,我們往往會反覆驗證,分解任務,甚至從目標倒推回去。語言模型也是如此。在《倒計時》遊戲中,回溯和驗證成了制勝法寶。研究者用這個遊戲設計了初始實驗,發現Llama只要稍加引導,就能展現潛力。後來,他們用更豐富的數據集進一步訓練,證明這種提升並非偶然,而是可以通過精心挑選訓練素材實現的。

這些發現揭示了一個簡單卻深刻的道理:模型的自我提升,取決於它最初的推理習慣。Qwen之所以能脫穎而出,是因為它自帶驗證和回溯的“天賦”;而Llama通過訓練,也能迎頭趕上。更有趣的是,即便用錯誤答案引導,只要保留正確的推理模式,效果依然不減。這讓人不禁思考:在程式設計、遊戲或寫作等其他領域,又需要哪些特定的認知行為呢?

人類的智慧積累了無數解題的妙招,而AI正在這條路上越走越遠。未來,它或許不僅能學會我們的習慣,還能創造出全新的推理方式。就像Qwen和Llama的故事告訴我們的,進步的關鍵不在於起點多高,而在於能否找到適合自己的成長路徑。

本文譯自 arxiv.org,由 BALI 編輯發佈。

我學會了煎雞蛋
我學會了煎雞蛋
2025-04-02 19:48:37
漢堡的家常做法
漢堡的家常做法
2025-04-06 05:44:40