只需使用一種通用演算法,就可以解決來自各個應用領域的各種任務,一直是人工智慧(AI)行業的基本挑戰之一。
如今,Google DeepMind 在這一方向取得了新的突破。
他們開發的第三代 Dreamer 通用演算法,只需一次配置,就能在 150 多種不同任務中勝過專用方法。
據介紹,Dreamer 是第一個在沒有人類數據或課程的情況下,從零開始在《我的世界》中收集鑽石的演算法,可以在不進行大量實驗的情況下,解決具有挑戰性的控制問題,使強化學習具有更廣泛的適用性。
相關研究論文以 Mastering diverse control tasks through world models 為題,於今日發佈在權威科學期刊 Nature 上。
Dreamer 是怎樣煉成的?
目前的強化學習演算法可以很容易地應用於與之相似的任務,但將其應用於新的應用領域則需要大量的人類專業知識和實驗。更專業的演算法通常用於實現更高的性能,針對不同應用領域提出的獨特挑戰,如連續控制、離散動作解析獎勵、圖像輸入、空間環境和棋盤遊戲。
將強化學習演算法應用於全新的任務,例如從視頻遊戲轉向機器人任務需要大量的精力、專業知識和計算資源來調整演算法的超參數。這種脆性成為將強化學習應用於新問題的瓶頸,同時也限制了強化學習在計算昂貴的模型或任務中的適用性。
創建一種無需重新配置就能掌握新領域的通用演算法,一直是人工智慧領域的核心挑戰,它將為強化學習帶來廣泛的實際應用。
Google DeepMind 提出的第三代 Dreamer 演算法實現了這一突破。
據介紹,Dreamer 由 3 個神經網路組成:世界模型預測潛在行動的結果,評論者判斷每個結果的價值,行動者選擇行動以達到最有價值的結果。
圖|Dreamer 的訓練過程
當行動者與環境互動時,這 3 個部分會根據重放的經驗同時進行訓練。要在不同領域取得成功,3 個部分都需要適應不同的信號幅度,並在其目標中魯棒地平衡各項條件。
世界模型通過自動編碼學習感官輸入的緊湊表徵,並通過預測潛在行動的未來表徵和獎勵來實現規劃。行動者和評論者神經網路純粹從世界模型預測的抽象軌跡表徵中學習行為。行動者在探索過程中通過熵正則學習選擇收益最大化的行動。
Dreamer 使用 symlog 函數對編碼器輸入和解碼器目標進行向量觀測轉換,並對獎勵預測器和批評器採用 synexp 雙熱損失。這些技術可以在許多不同領域實現魯棒且快速的學習。
效果怎麼樣?
在固定超參數下,研究團隊從基準、《我的世界》、消融、擴展性 4 個角度評估了 Dreamer 在 8 個領域、超過 150 項任務的通用性。
他們首先進行了廣泛的實證研究來評估基準,包括連續和離散動作、視覺和低維輸入、密集和稀疏獎勵、不同獎勵尺度、二維和三維世界以及程式生成。
結果發現,在適用的領域中,Dreamer 可以和最好的專用演算法相媲美,甚至表現更好,無論它們是否基於模型。
圖|基準分數
《我的世界》是在一個獨特的隨機生成的無限三維世界中進行的。在此期間,玩家需要通過尋找資源和製作工具,從稀少的獎勵中發現一連串的 12 種物品。有經驗的人類玩家大約需要 20 分鐘才能獲得鑽石。
Dreamer 是第一個從零開始在《我的世界》中收集鑽石的演算法,不像 VPT(視頻預訓練)或自適應課程要求使用人工數據,這實現了 AI 領域的一個重要突破。所有 Dreamer 智慧體都在 1 億個環境步數內發現鑽石。
圖|Dreamer 在《我的世界》鑽石挑戰中的表現
在消融方面,他們在 14 個任務的不同集合上消融了魯棒性技術和學習信號,發現所有魯棒性技術都有助於提高性能,其中最顯著的是世界模型目標的庫爾巴克 - 萊伯勒平衡和自由比特,其次是返回歸一化和用於獎勵和價值預測的 symexp 雙熱回歸。
為了研究世界模型的影響,他們消除了 Dreamer 的學習信號,方法是阻止特定任務的獎勵和價值預測梯度或與任務無關的重構梯度塑造其表徵。
以往的強化學習演算法通常只依賴於特定任務的學習信號,而 Dreamer 則主要依賴於其世界模型的無監督目標。這為未來利用無監督數據進行預訓練的演算法變體提供了可能。
圖|Dreamer 的消融
在擴展性方面,他們在 Crafter 和 DMLab 任務上訓練了參數從 1200 萬到 4 億不等的 6 個模型,並採用了不同的重放比例,這會影響智慧體執行梯度更新的次數。增加模型大小可直接轉化為更高的任務性能和更低的數據要求,梯度步數的增加進一步減少了學習成功行為所需的交互。
結果顯示,Dreamer 能在不同的模型大小和重放比例下穩健地學習,這為通過擴展計算資源來提高性能提供了一種可預測的方法。
圖|Dreamer 的魯棒擴展
作為一種基於學習世界模型的高性能演算法,Dreamer 為未來的研究方向鋪平了道路,包括從互聯網視頻中向智慧體傳授世界知識,以及跨領域學習單一世界模型,讓智慧體積累越來越多的通用知識和能力。