2025年圖靈獎：強化學習的前世今生

更新于：2025-04-01 07:48:47

經濟觀察報陳永偉/文 3月5日，安德魯·巴托（Andrew Barto）和理查·薩頓（Richard Sutton）因在強化學習（Reinforcement Learning）領域的開創性貢獻而獲得了今年的圖靈獎。在歷經多年爭議之後，強化學習終於重新獲得了主流學界的認可。借此機會，就讓我們花點時間來聊聊這個支撐GPT、DeepSeek等大模型成功的重要理論，回顧一下它的發展歷程。

早年歲月

在展開討論之前，我們需要對強化學習的基本概念做一個簡要介紹。簡而言之，強化學習是機器學習的一個重要分支，其核心思想是讓智慧體通過不斷與環境交互，並根據所獲得的回報來調整策略，從而實現學習。從本質上看，它與我們熟悉的監督學習（Supervised Learning）有顯著區別。如果說監督學習是給小朋友一堆貼好標籤的水果圖片，教他們識別水果；那麼強化學習則是給小朋友一張水果圖片，讓他們猜名字，答對了就給糖吃，通過這種激勵機制訓練他們識別水果。

在計算機與人工智慧的發展歷史中，強化學習的思想至少可以追溯到圖靈（Alan Turing）。早在1950年，他就提出過一種基於獎懲機制的機器學習方法。而若將視野拓寬至更廣闊的認知和心理學領域，強化學習顯然也深受斯金納（B.F. Skinner）的操作性條件反射理論和赫布（Donald Hebb）的學習機制影響。

（1）明斯基的物理神經網路

1951年，人工智慧奠基人馬文·明斯基在普林斯頓大學攻讀博士期間，受到赫布“用進廢退”的神經連接理論啟發，親自搭建了一個類比神經元學習的物理裝置——SNARC（隨機神經模擬強化計算機）。它由300多個真空管和數百個電子元件構成，具備40多個神經元，可接收輸入、處理信號並輸出結果，類比生物神經元的行為。神經元之間的連接強度可根據外部“獎勵”信號動態調整，正向反饋增強連接，負向反饋則減弱。

明斯基利用SNARC解決了“老鼠走迷宮”問題，讓系統通過反覆試錯學會在迷宮中找到出口。這是強化學習機制在硬體層面的早期實現，也是歷史上最早的神經網路實例之一。諷刺的是，明斯基此後轉向符號主義，認為邏輯推理比神經網路更具潛力，並在之後幾十年間排斥後者，致使神經網路研究長期停滯。究其原因，或許是他對當時神經網路在技術上的性能上限有更清晰的認知。

（2）電腦上的自組織模型

隨著計算機的發展，研究者開始嘗試在虛擬環境中類比神經網路。1954年，法利和克拉克在IBM　701商用計算機上構建了一個由128個神經元組成的網路，利用強化學習式的反饋機制進行訓練。成功的回應增強連接權重，錯誤則減弱，實現了神經元連接的自我調整。這一嘗試驗證了在計算機上實現強化學習的可行性，是該領域技術演化中的關鍵一步。

儘管模型本身較為初級，但它開啟了強化學習從物理裝置向程式模型過渡的可能性。遺憾的是，法利與克拉克很快將研究重心轉向監督學習，未在強化學習領域持續深耕，後續影響相對有限。

（3）薩繆爾的跳棋程式

與明斯基和法利偏向隱式神經連接調整的方式不同，IBM研究員亞瑟·薩繆爾開創性地提出了更顯式的強化學習模型。他選用跳棋作為實驗平臺，設計了一個可評估棋局優劣的函數，輸入包括棋子數量差、王棋數、可移動性等特徵，並通過線性加權生成得分。AI可依此評估當前局勢，並利用極大極小法進行策略決策。

薩繆爾開發了兩種學習方式：其一是近似監督學習，借助重播棋局結果進行參數調整；其二是強化學習方法，根據當前狀態與下一狀態之間的評分差異來動態修正預測。這一設計極大提升了程式的自我改進能力。

1956年，該程式在電視上挑戰康涅狄格州跳棋冠軍羅伯特·尼利雖敗猶榮，1962年再戰成功擊敗對手，標誌著AI系統首次在複雜任務中擊敗人類專家，也成為強化學習的標誌性成果。薩繆爾還將“機器學習”（machine learning）一詞帶入公眾視野，在AI普及上功不可沒。

師徒倆的貢獻

20世紀50至70年代，強化學習的實踐雖頻繁，但多停留在神經機制的模擬層面，缺乏系統性的理論探索。直到20世紀80年代，強化學習才迎來真正的理論奠基者——安德魯·巴托（Andrew Barto）與理查·薩頓（Richard Sutton）這對師徒。

巴托原本在密歇根大學主修造船工程，后受阿比卜、麥克庫洛赫等人“用計算機類比大腦”思想吸引，轉攻數學與計算機科學，並師從遺傳演演演演算法創始人霍蘭德完成博士學位。1975年畢業後，他前往MIT從事博士後研究，並獲得教職，主講《人工智慧》課程中關於神經網路的部分。儘管課程內容偏重腦科學，令許多學生困惑，卻深深吸引了當時正在攻讀博士的薩頓。

薩頓1961年生於美國伊利諾伊州，本科在斯坦福大學主修心理學。其間，他受到哈裡·克洛普夫“獎賞驅動學習”理論的啟發，認為機器智慧應來源於試錯與激勵機制。畢業後進入MIT深造，遇見了理念相投的巴托，兩人一拍即合，決定攜手推進強化學習的理論化進程。

在隨後的合作中，薩頓負責提出創新構想，巴托則以紮實的數理功底將其形式化為可操作的數學模型。他們共同發表了大量開創性論文，提出了時序差分學習、演員—評論家模型等核心理論，奠定了強化學習作為一門獨立學科的理論基石。

（1）時序差分學習

巴托和薩頓合作的第一個重要成果是著名的“時序差分學習”（Temporal Difference Learning，簡稱TD）理論。儘管這個名字聽上去頗為“高大上”，其核心思想其實並不複雜。簡單來說，TD的基本機制是：通過當前狀態的價值估計與下一狀態的價值估計之間的“差分”，來逐步更新對策略或預測值的估計。

我們可以用“登山”來類比解釋TD理論的思路：

假設我們面對一座高山，有多條路徑通向山頂。任務是找出一條耗時最少的路線。但我們既未爬過此山，也沒有地圖，那麼如何做出判斷呢？一種最樸素的方法是，沿著每一條路徑分別走一遍，記錄登頂所用時間。每嘗試一條新路線，就與已有最佳耗時對比，如果更快就替換原先的選擇。最終，就能找到最優路徑。

這種方法體現了最直觀的強化學習機制：根據執行策略后得到的“價值”反饋，調整策略以優化結果。選擇哪條路徑就是策略，而登頂所用時間即該策略的價值。

不過，在現實中，人們往往不會採用這種“跑完全程再比較”的方式，而是會邊走邊觀察。走了一段時間，若發現進展緩慢，便會考慮返回或換路。這種“即時評估”方式，就是根據每一步所獲得的“獎勵”進行反饋調整。此處，每一小段距離的前進效果就相當於一個即時獎勵。

但這依然不夠精細。現實中經常有“前期艱難、後勁十足”的路徑。若僅看局部表現，可能會錯判整體價值。因此，更合理的方式是：在評估當前表現的同時，也要對未來走勢進行預估——這正是TD演算法的本質：用當前狀態與下一狀態的價值函數的“差分”來優化策略。

細心讀者會注意到，實際上薩繆爾的跳棋程式中已經隱含使用了TD思想：它通過比較當前棋局與下一步棋局的局勢評分，來調整策略。不過，薩繆爾更多是依靠直覺經驗，缺乏對該機制的理論總結。而巴托與薩頓則系統性地將這一思路與數學中的“動態規劃”方法相結合，明確提出了TD的數學框架。他們還借用統計學中的“自舉法”（Bootstrapping），來在缺乏最終結果時，估算各個狀態的價值函數，從而使TD成為一個可精確描述、可通用解答的學習模型。

在TD演算法中，一個關鍵問題是：如何權衡短期與長期回報。為此，巴托和薩頓引入了參數λ（Lambda）來控制這種權衡：當λ為0時，演算法只關注即時獎勵；當λ為1時，則等同於累積所有回報的“全軌跡”方法。在實際應用中，λ值可根據任務需求靈活設定，從而平衡學習速度與精度。

值得一提的是，正因兩位作者都深受腦科學影響，他們特彆強調TD學習與動物大腦中的“獎賞預測誤差”（Reward Prediction Error）機制之間的相似性。這個觀點後來啟發了關於多巴胺神經元如何編碼預測誤差的理論，並最終在神經科學實驗中獲得驗證。這一成果也被視為人工智慧理論反哺神經科學研究的經典案例之一。

（2）演員—評論家模型

巴托和薩頓的第二個重要貢獻是“演員—評論家”（Actor-Critic）結構。顧名思義，這種結構將學習過程中涉及的策略變數與價值函數分別交由兩個模組進行建模和訓練。其中，“演員”模型負責策略的選擇，即決定在特定狀態下採取何種動作；而“評論家”模型則負責評估不同狀態的價值函數，併為“演員”提供反饋。通過這種任務分工，訓練過程可以變得更加穩定，效率也顯著提高。

我們依然可以用“登山”來打個比方。在之前的例子中，登山者需要邊走邊選路，同時還要評估路徑的優劣，這顯然是個負擔極重的任務。為了減輕負擔，可以安排兩人結伴登山：一個人專注於選路（即“演員”），另一個人則一路觀察、記錄、評價所走路線的表現（即“評論家”）。兩人配合，就可以高效地完成原本一人承擔的任務，從而更快更穩地找到最佳路徑。

由於“演員—評論家”模型思路清晰、實現相對簡便，自巴托和薩頓在20世紀80年代初提出這一結構以來，它迅速成為強化學習中最常用的訓練架構之一。隨著研究的深入，後來的學者在此基礎上發展出了許多變體，以適應更複雜的任務場景。例如，OpenAI在訓練ChatGPT時所使用的“近端策略優化”（Proximal Policy Optimization，簡稱PPO）算法，本質上就是一種“演員—評論家”結構的改進版本。

需要特別指出的是，除了提出一系列重要演算法之外，巴托和薩頓對強化學習的另一個重大貢獻，是合著了該領域最具影響力的教科書之一——《強化學習：導論》。這本書於1998年首次出版，即使在今天仍被全球眾多研究者視為必須研讀的“聖經”，其地位至今無人撼動。

神奇的Q學習演算法

在巴托和薩頓奠定了強化學習的理論基礎之後，越來越多的研究者加入這一領域，並為其發展貢獻了諸多新的演算法。在這些貢獻中，最重要的里程碑之一，可能就是沃特金斯（ChristopherJ.C.H.Watkins）於1989年提出的Q學習（Q-Learning）算法。

從理論淵源上看，Q學習演算法的核心思想來自動態規劃中的經典工具——貝爾曼方程（Bellman Equation）。這一方程的基本思路是：在處理規劃問題時，可以將總價值函數拆分為當前回報和未來價值兩部分的加和。

為了更好地理解這個思想，我們仍然借用“行路”的比喻。設想一個人要從甲地前往乙地，他面前有多條路線可供選擇。每條路上都有許多路口，每個路口又分出不同的岔道，需要逐一抉擇。在不知全貌的情況下，要準確選出一條最短路徑幾乎是不可能的。但他可以採用“分步”策略：先選一條路走到下一個路口，然後再從這個路口考慮如何走到終點。如此反覆，每一個路口的最短路徑都可以通過“當前這一步”加上“後續最短路徑”來遞推得到。最終，從終點反向推導，就可以構建出從任意位置到終點的最短路徑圖。

當然，上述分析隱含了一個前提：行路人手中有地圖，可以掌握所有路口和路徑的資訊。而在強化學習的問題中，情況顯然並非如此——智慧體一開始並不知道環境的全貌，也沒有“地圖”可以查閱。那麼在沒有地圖的前提下，怎麼“推”出最短路徑呢？這，正是Q學習要解決的核心問題。

Q學習沿用了貝爾曼方程的分解思想：它將某個狀態下採取某個動作的“品質”（Quality，即Q學習中“Q”的來源）拆解為兩個部分：該動作當前可獲得的獎勵，以及未來可能獲得的總價值。雖然未來的價值無法提前知道，但可以根據經驗不斷進行估計並動態更新。隨著學習的深入，估計值逐步趨近真實值。這樣，智慧體便可以在每一步根據當前狀態下不同動作的Q值進行選擇，從而最終找到最優策略。

換言之，Q學習就是在“沒有地圖”的條件下，通過試錯經驗，一點一點“畫”出這張地圖。

我們可以把這個過程想像成行路人探索路徑的過程：雖然起初沒有地圖，但他可以從一個路口出發，走一段路，記錄這段路的長度和路況，然後根據經驗評估從下一個路口到終點的距離。每走過一段路，他的判斷就更準確一些。當他積累了足夠多的經驗后，就能大致判斷出哪條路徑最短。

沃特金斯提出Q學習之後，巴托與薩頓對這一演算法給予高度評價。他們在合著的經典教科書中不僅對Q學習進行了系統講解，還提供了大量應用實例。借助這兩位重量級人物的影響力與推廣，Q學習很快成為強化學習領域最廣為人知的演算法之一。特別是在解決瑪律可夫決策過程（Markov Decision Process，簡稱MDP）問題時，Q學習已成為標準的求解方法。

近年來，互聯網上還盛傳OpenAI正在進行一個代號為“Q-Star”的神秘專案，目標是打造超越人類的自主智能系統。儘管OpenAI高層如山姆·奧特曼（Sam Altman）始終對這一項目的細節守口如瓶，但據傳其核心思想正是基於Q學習演算法來強化AI的決策能力。雖然這一傳言尚無確鑿證據，但從技術角度來看，利用Q學習來訓練AI在不確定環境中的決策能力，的確是一個合理且成熟的方向。

當深度學習遇上強化學習

在強化學習發展的早期，該領域的研究者在建模時主要採用表格方法（Tabular Methods）和線性函數逼近（Linear Function Approximation）。除了個別案例（如傑拉爾德·特索羅開發的西洋雙跳棋程式）之外，多數研究者通常會選擇線性模型，或僅使用單層神經網路來表示策略函數和價值函數，並以此進行學習。這種模型上的簡化，在很大程度上限制了強化學習性能的提升。

需要指出的是，研究者之所以採用這樣的簡化策略，並非出於智識上的局限，而是當時技術條件的現實制約。在很早以前，人們其實就已經認識到：在相同參數規模下，多層神經網路往往比單層神經網路擁有更強的表達能力。巴托和薩頓也在其經典教科書中明確討論過多層網路在建模上的優勢。但在當時的算力條件下，要訓練一個深層網路幾乎是天方夜譚。正因為如此，研究者才不得不退而求其次，採用更為“輕量級”的建模手段。

進入21世紀以後，計算機軟硬體技術突飛猛進，尤其是GPU的廣泛應用，大幅降低了多層神經網路的訓練成本。從2006年起，辛頓（Geoffrey Hinton）及其學生發表了一系列深度網路訓練的關鍵論文。2012年，他們更是在“ImageNet大規模視覺識別競賽”（ILSVRC）上以壓倒性優勢奪冠，首次向業界展示了“深度學習”的真正威力。從此，深度學習革命全面開啟，多層神經網路也迅速成為機器學習的主流建模方法。

深度學習的浪潮很快也席捲到了強化學習領域。2013年，DeepMind的弗拉基米爾·姆尼赫（Volodymyr Mnih）等人首次將捲積神經網路（CNN）與Q學習相結合，用CNN來逼近Q函數，這一結合產出了著名的深度Q網路（DeepQ-Network，簡稱 DQN）。實驗結果表明，CNN作為Q函數的逼近器，顯著提高了模型在高維狀態空間中的泛化與表達能力，大幅提升了強化學習的性能。

為了驗證DQN的能力，研究者讓它代替人類去玩雅達利（Atari）公司的經典遊戲。他們一共選用了49款遊戲作為測試場景，每個遊戲中，AI都直接將圖元圖像作為輸入，遊戲得分作為反饋信號，通過DQN進行學習。結果顯示，在多數遊戲中，DQN的表現達到了甚至超越了人類水準。例如，在《打磚塊》中，AI可以精準地掌控擊球方向，而在《乒乓球》中，它會自學出極具策略性的回球方式。

DQN展現了深度學習與強化學習結合的強大力量，自此“深度強化學習”迅速成為AI領域的顯學。大量研究者蜂擁而入，先後提出了DDPG、A3C、PPO等一系列重要的演算法框架，理論成果如雨後春筍般湧現。

不過，真正讓大眾見識到深度強化學習“力量”的，是一場劃時代的圍棋大戰。2016年，Google Deep Mind主辦了一場特別的人機對弈賽——人類代表是以“神之一手”著稱的世界冠軍李世石，而AI代表則是他們開發的圍棋程式AlphaGo。

在此之前，AI戰勝人類頂尖棋手並非首例——跳棋冠軍羅伯特·尼利、國際象棋冠軍卡斯帕羅夫（GarryKas parov）都曾在AI面前敗下陣來。但圍棋的策略空間遠遠超過象棋與跳棋，其複雜度甚至超出了人類可計算的範疇。圍棋中無法簡單套用規則或博弈論模型來保底獲勝，因此，AlphaGo若能勝出，將標誌著AI在真正意義上掌握了高水平智慧策略。

原本外界普遍預期這場比賽將十分膠著，但出乎所有人意料，AlphaGo以壓倒性優勢取得勝利。在五局比賽中，它贏下四局，李世石僅在第四局扳回一城。結果一出，震驚全球。

AlphaGo的成功秘訣何在？從模型結構來看，它採用了深度神經網路來逼近策略函數和價值函數。在訓練流程上，它首先通過監督學習學習了大量人類棋譜，從中掌握了經典套路和落子思維；接著，它通過與自身對弈的方式（即“自我博弈”），進行大規模的強化學習訓練。在這種“左右互搏”過程中，它不斷修正策略，最終棋藝超越人類頂尖高手。

儘管AlphaGo戰勝了李世石，但仍有不少人不以為然。一些評論認為它只是記住了更多的棋譜和戰術，歸根結底不過是“人類經驗的堆疊”，並未體現AI的真正智慧。

然而，這種觀點很快就被現實“打臉”。不久之後，DeepMind發佈了新一代的圍棋AI程式——AlphaZero。與AlphaGo不同，AlphaZero完全沒有接觸過人類棋譜，它的全部訓練過程僅基於圍棋的基本規則，然後通過純粹的自我對弈進行強化學習。第一，它的落子幾乎是隨機的，但隨著學習的深入，其棋藝迅猛增長，並最終以壓倒性優勢擊敗了AlphaGo。

更令人驚歎的是，AlphaZero的強化學習思路極具通用性。與AlphaGo只能用於圍棋不同，AlphaZero可以快速適應多種規則系統。很快，DeepMind就將這套思路遷移到了生命科學領域，開發出用於蛋白質結構預測AlphaFold，又打造出了專門玩《星際爭霸》的AlphaStar。

尾聲

需要指出的是，強化學習並沒有因為AlphaZero的成功而一舉登上巔峰。恰恰相反，不久之後，它的聲譽反而迅速跌入了谷底。這一轉變的原因，並不在於強化學習本身能力的不足，而在於隨著算力和數據資源的持續豐富，監督學習的優勢被進一步釋放。尤其是大語言模型的崛起，以及所謂的“規模定律”（Scaling Law）的發現，讓“不斷放大模型規模”幾乎成為了提升AI性能的公認捷徑。

在這樣的背景下，強化學習雖仍具有獨特價值，卻在“規模定律”的光芒下顯得黯然失色。一時間，很多資深的人工智慧學者都對它的前景表示不看好。例如，“深度學習之父”辛頓（Geoffrey Hinton）就曾半開玩笑地說：“我們應該把強化學習排除在機器學習之外。作為機器學習的第三種範式（前兩種是監督學習和無監督學習），它似乎並不太有效。”

面對這些質疑，強化學習的奠基人之一薩頓並未退縮。他與AlphaGo系列的主要負責人大衛·希爾弗（David Silver）一起發表了一篇論文，題為《Reward is Enough》（“有獎勵就足夠了”）。顯然，這個標題本身就已經傳達了一種堅定的立場和信念。

事實證明，薩頓對強化學習的信心並非毫無依據。只不過，就連他自己大概也未曾預料到，拯救強化學習聲譽的，竟然會是一股來自東方的力量。

2025年1月，DeepSeek發佈了 R1版本。這款模型一經面世，便憑藉與國際頂尖大模型比肩的能力贏得了全球用戶的青睞。更令業界震驚的是，它的訓練與運行成本遠低於同類模型，性價比之高被許多觀察者稱為“不可思議”。

DeepSeek究竟是如何做到這一點的？一個重要原因就在於：它在訓練過程中大量應用了強化學習。它不僅在長鏈思維任務中完全摒棄了傳統的有監督微調方式，轉而全面採用強化學習方法，還創新性地提出了“群體相對策略優化”（Group Relative Policy Optimization，簡稱 GRPO）算法，以取代主流的PPO（Proximal Policy Optimization）方法。這一系列策略上的突破，不僅讓DeepSeek成為中國AI能力的集大成者，也向世界再一次展示了強化學習的強大生命力。

值得一提的是，DeepSeek成功之後，關於其訓練過程也衍生出了不少傳說。其中一個流行的說法是：之所以他們能放棄成熟的PPO而自創GRPO，是因為團隊中一位關鍵成員此前並未系統學習過強化學習，而是在摸索中不斷試錯，最後“誤打誤撞”地發明瞭這一新演算法。這個故事真假難辨，但若其屬實，倒也頗具象徵意義——一個沒有參考經驗、完全依賴探索與反饋進行學習和優化的過程，本身就是對強化學習精神的完美詮釋。