蓋世汽車訊 快速生成高品質圖片的能力對於打造逼真的模擬環境至關重要,而且此類環境可用於訓練自動駕駛汽車避開不可預測的危險,從而提升其在真實道路場景中的安全性。然而,目前生成式人工智慧技術越來越多地被用於生成此類圖像,不過此類技術存在缺陷。例如,一種十分流行的模型類別——擴散模型,就可以生成極其逼真的圖像,但是其對於很多應用而言,速度慢且需要大量的計算資源。另一方面,驅動ChatGPT等大型語言模型(LLM)的自回歸模型雖然速度更快,但是生成的圖像品質較低,而且常常有很多錯誤。
據外媒報導,在此背景下,美國麻省理工學院(MIT)與英偉達公司(NVIDIA)的研究人員研發了一種新方法,成功將上述兩種方法的優勢結合起來。此種混合圖像生成工具採用自回歸模型,快速捕捉整體畫面,然後運用小型擴散模型,對圖像進行細節優化。該款工具名為HART(hybrid autoregressive transformer,混合自回歸轉換器的縮寫),能夠生成與當前最先進的擴散模型所生成的圖像,質量相當甚至更優的圖像,同時速度提升了九倍。
AI工具生成逼真圖像(圖片來源:MIT)
HART生成圖像的過程所消耗的計算資源較典型擴散模型更少,因而使其能夠在商用筆記型電腦或智慧手機上本地運行。使用者只需在HART介面輸入自然語言提示,即可生成圖像。HART可能具有廣泛的應用前景,例如説明研究人員訓練機器人,以完成複雜的真實世界任務;協助設計師為視頻遊戲打造更具吸引力的場景。
兩全其美
Stable Diffusion和DALL-E等流行的擴散模型能夠生成高度細節化的圖像。此類模型通過反覆運算過程生成圖像,在此過程中,此類模型會對每個像素預測一定量的隨機雜訊,然後減去雜訊,之後預測過程與“去噪”過程會被重複多次,直至生成一張完全無雜訊的新圖像。
由於擴散模型在每一步均需對圖像中的所有圖元執行去噪操作,並且該過程可能包括30步或更多步驟,因此整體過程可能會比較緩慢且計算成本高昂。但是,因為該模型有多次機會修正之前出錯的細節,因此生成的圖像品質會很高。
自回歸模型在文本預測任務中得到了廣泛應用,並且可通過依次預測圖像塊(每次多個圖元)生成圖像。儘管該模型無法回溯以修正錯誤,但是此種順序預測過程比擴散模型速度快得多。
此類模型採用稱作標記(tokens)的表現形式來進行預測。自回歸模型採用自動編碼器將原始圖像圖元壓縮為離散標記,並基於此類預測標記重建圖像。儘管此種方法提升了模型的速度,但是壓縮過程中發生的信息丟失可能會導致模型在生成新圖像時出現錯誤。
借助HART,研究人員研發了一種混合方法,運用自回歸模型來預測壓縮的離散圖像標記,再運營小型擴散模型來預測殘差標記。其中,殘差標記能夠捕捉離散標記遺漏的細節資訊,補償模型丟失的資訊。
由於擴散模型只能預測自回歸模型完成工作后的剩餘細節,因此其可在八個步驟內完成任務。相比之下,標準擴散模型通常需要30個或者更多步驟來生成完整的圖像。此種額外引入的擴散模型以極低的計算量保留了自回歸模型的速度優勢,同時大幅提升其生成複雜圖像細節的能力。
在研發HART的過程中,研究人員在高效整合擴散模型以增強自回歸模型方面遇到了挑戰。但是他們發現,在自回歸過程的早期集成擴散模型會導致誤差累積。因此,最終的設計僅在最後一步應用了擴散模型,以預測剩餘標記,從而顯著提升了圖像生成的品質。
研究人員的方法結合了含有7億參數的自回歸轉換器模型和含有3700萬參數的輕量級擴散模型,能夠生成與擁有20億參數的擴散模型同等品質的圖像,但是速度卻快了九倍。此外,其計算量比最先進的模型少約31%。
此外,由於HART採用自回歸模型(與驅動LLM的模型一樣)來完成大量工作,因此其更易與新型統一視覺-語言生成式模型集成在一起。未來,人們或許能夠與統一視覺-語言生成式模型互動,例如要求其展示組裝一件傢俱所需的中間步驟。
展望未來,研究人員希望能夠繼續研究,基於HART架構打造視覺-語言模型。由於HART具有可擴充性以及多模態通用性,因此研究人員還希望將其應用於視頻生成和音訊預測任務。