隨著人工智慧(AI)模型規模以及應用範圍的不斷拓展,性能上限和能耗瓶頸正逐漸顯現出來。大語言模型(LLM)、強化學習和卷積神經網路等 AI 模型的複雜性不斷增長,正在將傳統電子計算推向極限,能源需求也不斷增加。
傳統電子計算硬體(如 GPU 和 TPU)的速度和效率由於受到摩爾定律和登納德縮放定律的限制,能效瓶頸愈發明顯,支撐 AI 所需的計算能力可能會將現有電子硬體推向極限,與此同時,AI 整體能耗的上升也導致碳排放增多,對數據中心附近的電網構成壓力。
面對日益增長的計算需求,使用光子而非電子的光子計算為這些挑戰提供了一個潛在的解決方案。
本週《自然》雜誌上的兩篇重磅論文,介紹了一種結合“光”和“電”的電腦晶片,展示了利用矽基光子學技術的互補突破。這兩項工作利用了一種既處理電信號又利用光信號的新型晶元,在提升計算性能的同時也能降低能耗。
經過實際應用測試,他們提出的電子–光子混合計算系統在關鍵性能指標上不僅能夠與純電子處理器相媲美,在某些實際應用中甚至表現出超越電子處理器的優勢。這標誌著我們朝著真正實現光子計算潛能邁出了重要一步。
具體而言,新加坡 Lightelligence 公司 Yichen Shen 團隊展示了一種名為 PACE 的光子加速器,這個由超過 16000 個光子元件組成的大型加速器,採用 64 × 64 的矩陣,能夠實現高速計算(最高達 1 GHz),並且與小規模電路或單個光子元件相比,最小延遲減少了 500 倍。這種極低延遲的計算,對於即時處理來說是一個重要的計算速度指標。PACE 也被證明能夠解決被稱為“伊辛問題”的複雜計算問題,表明瞭該系統在實際應用中的可行性。
在另一篇獨立的論文中,來自美國光子計算機公司 Lightmatter 的 Nicholas Harris 團隊描述了一種能夠高效高精度執行 AI 模型的光子處理器。該處理器由四個 128 × 128 的矩陣組成,可以執行自然語言處理模型 BERT 和用於圖像處理的神經網路 ResNet,其精度與傳統電子處理器不相上下。研究人員還演示了該光子處理器的多種應用,包括生成莎士比亞風格的文本、準確分類電影評論,以及玩經典的 Atari 電腦遊戲《吃豆人》等。
兩個團隊均表示,他們的系統是可擴展的,還有進一步優化的空間。“光子計算已經發展了幾十年,但這些演示可能意味著我們終於可以利用光的力量來構建更強大、更節能的計算系統。”在 Nature 同期發表的一篇評論文章中,達特茅斯學院工程學助理教授 Anthony Rizzo 表示。
光子計算,不再受制於晶體管限制的計算技術
在計算機和 AI 技術高速發展的今天,記憶體訪問和數據傳輸佔據了絕大部分 AI 工作負載的能耗和執行時間,甚至超過了計算本身的消耗。即使計算單元幾乎不消耗能量,整體效率仍然受到數據傳輸的限制。
計算技術也正處在一個前所未有的轉捩點。AI 工作負載對計算能力的需求已經超越了傳統擴展定律(如摩爾定律、登納德縮放定律和記憶體擴展定律)所能提供的能力。這三項定律,尤其是在每單位矽面積的基礎上,已經基本停滯。
近幾十年來,科學家們一直在探索尋找新的計算技術,以解決基於晶體管架構的固有限制。
例如,量子計算能夠在某些問題上實現指數級加速,但目前在糾錯、可擴展性和保持相乾性方面面臨挑戰。此外,為量子計算機創建可證明比經典計算機演算法更高效的演算法也存在困難;DNA 計算利用分子級並行性,但面臨顯著的實際障礙,包括操作速度慢以及與傳統計算系統介面的困難;類腦計算和類比計算方法提供了受生物神經網路啟發的獨特信息處理方式,但通常缺乏靈活性、通用適用性和與現有演算法的相容性;基於碳納米管的處理器旨在取代矽晶體管,但仍然受到連接納米管計算元件的電氣線路充放電所需的能量和時間成本的限制。
光子學作為一種替代傳統電子技術的方案,因其具有高頻寬、低延遲、顏色並行化等固有優勢,以及通過光基計算實現更高能效的潛力而備受關注。光子計算是一種利用光信號進行計算的技術。光子計算的優勢在於光的速度極快,光信號的頻寬很高,而且光子計算的能耗更低。換句話說,光子計算就像是“資訊高速公路”,可以讓數據傳輸和處理變得更加高效。
而且,光子計算具有更高的並行性和更低的功耗,理論上可以顯著提升計算速度和能效。此外,矩陣乘法和累加(MAC)運算是 AI 的核心計算操作,使用光子電路可以更快、更高效地完成這些操作。近些年來,科學家們已經開發了包括利用時間 - 波長交錯數據和光電乘法的光子加速器,展示了朝著實用光子處理器在 AI 任務中應用邁出的重要一步。
光子計算作為一種有潛力的研究領域已經存在了數十年,但其在實際應用中的推廣一直受到制約,原因在於缺乏能夠實現晶元級、可規模化生產的光學處理單元。儘管一些最先進的展示證明瞭集成光子學在加速計算方面的潛力,但這些光子晶元的性能評估大多是在單獨測試中進行,而現實系統中的數據大多依賴於電子領域。因此,光子計算必須與電子技術緊密集成,共同設計才能發揮出最佳性能。
事實上,這兩項技術並非互相競爭,而是各有所長、互為補充。具體來說,光子技術在執行線性運算時(即輸入與輸出數據之間存在線性、成比例關係的情況)表現得更為高效;而電子技術則在處理非線性運算時(即輸入與輸出數據之間通過複雜數學函數關聯,而不再保持簡單比例關係)具有更大優勢。
PACE:首個基於商用矽光子技術實現的大規模光子加速器
光子計算的潛力尚未完全實現,主要受限於大規模集成和複雜電路設計的挑戰,包括光學信號與電子信號的協同集成和轉換、在大規模複雜電路中類比計算的精度問題,以及適合光子硬體的演算法和模型開發。
Yichen Shen 團隊介紹了一種基於大規模集成光子技術的光子加速器系統 PACE,該系統能夠實現超低延遲的矩陣乘法與累加(MAC)運算,並在解決計算複雜度高的問題(如 Ising 問題)方面表現出顯著的性能優勢。
具體而言,研究團隊基於商用 65 納米矽光子技術,集成了超過 16000 個光子元件,提出了一種 64 × 64 的 PACE。而且 PACE 採用光電協同集成設計,將光子積體電路(PIC)和電子積體電路(EIC)封裝在一個系統級封裝(SiP)中。電子晶元基於 28 納米 CMOS 技術,負責數據輸入、輸出和邏輯控制。
他們將光子晶元和電子晶元通過 2.5D 封裝技術緊密集成在一個封裝內,實現高密度信號連接,從而能夠支持大規模矩陣運算。系統通過光調製器和探測器實現高速光電信號轉換,並通過嵌入式靜態隨機存取記憶體(SRAM)管理數據存儲。
性能方面,他們將 PACE 的表現與一款最先進的 NVIDIA A10 GPU 在解決涉及 64 × 64 矩陣乘法的伊辛模型時的表現進行了對比,結果顯示在最小延遲這一關鍵指標上,計算時間從 2300 納秒縮短到僅 5 納秒,近乎實現了 500 倍的改進。此外,PACE 的延遲擴展係數約比 TPU 低 1000 倍,這意味著隨著矩陣規模的增大,其延遲優勢會愈加顯著。
此外,系統通過引入可控雜訊(來自雷射器、模擬驅動器和數位電路)實現高效的比特翻轉,從而提高演算法的搜索效率。並通過嚴格的元件規格控制和校準,系統實現了平均 7.61 位的有效精度(ENOB),並能夠在 ± 5 ° C 的溫度波動下保持穩定。能效方面,PACE 的能效達到 4.21 TOPS/W(不包括雷射器)和 2.38 TOPS/W(包括雷射器),顯著優於傳統電子計算平臺。
研究人員表示,PACE 是首個基於商用矽光子技術實現的大規模光子加速器,該系統在延遲和計算速度方面的顯著優勢,為光子計算在 AI、優化問題和即時處理等領域的應用奠定了基礎。與傳統 GPU 相比,PACE 在延遲和計算時間上實現了兩個數量級的提升,為光子計算的商業化和大規模應用提供了重要參考。
研究人員也指出,通過進一步優化器件設計和信號處理,未來光子加速器的延遲可以降低到 3 納秒以下。光子計算也有望成為解決複雜計算問題的新一代計算平臺,特別是在需要高輸送量和超低延遲的場景中。
新光子 AI 處理器:已開玩《吃豆人》
從更巨集觀的角度來看,計算技術的未來需要在記憶體、互連和計算 3 個關鍵領域取得突破。開發一種可擴展的、類似 DRAM 的記憶體解決方案仍然是一個重大且未解決的挑戰,目前尚無明確的實用解決方案。
Nicholas Harris 團隊介紹了一種革命性的光子處理器,通過 Lightmatter 突破性光子互連技術 Passage 顯著降低數據傳輸能耗並提供超高頻寬,為這一關鍵瓶頸提供了解決方案。
這種新型的光子 AI 處理器能夠運行常見的 AI 模型,比如 ResNet(用於圖像分類)、BERT(用於文字分析)以及 DeepMind 的 Atari 強化學習演算法(用於遊戲決策),通過光子晶元實現了接近傳統電子計算的精度,同時具有更高的能效。
具體而言,該光子 AI 處理器集成了四個 128 × 128 的光子張量核心(PTC,負責光信號的計算),每個 PTC 包含 128 個 10 位光子向量單元和 128 × 128 個 7 位權重單元。PTC 通過高速光電信號與數位控制晶片(DCI,管理光子晶元的運行,並將光信號轉換為數字信號)相連,實現了高效的數據傳輸和處理。
性能表現上,該處理器在 78 瓦的電功耗和 1.6 瓦的光功耗下,每秒可執行 65.5 萬億次 16 位自適應塊浮點(ABFP)運算。這是目前光子處理器中最高的集成水準。
精度方面,該處理器在多個 AI 任務中表現出與 32 位浮點計算相當的精度,例如 ResNet 18 在 CIFAR-10 數據集上的分類準確率達到 97.8%,與傳統電子硬體相當。
任務能力上,該光子處理器可以執行分類任務(如識別圖像)、回歸任務(如預測數值)和強化學習任務(如玩複雜的遊戲)。其中在分類任務 ResNet18 等模型上表現出與數位平臺相當的分類準確率;在回歸任務(如 SQuAD)中,由於光子計算的雜訊敏感性,該處理器的性能略有下降;在強化學習演算法上,該處理器能夠運行 Atari 遊戲,儘管性能略低於 FP32 處理器,但展示了其在複雜決策任務中的潛力。
研究人員認為,這項研究的意義在於展示了光子計算在 AI 領域的巨大潛力。光子處理器的高能效和高性能使其成為未來 AI 硬體的有力競爭者,尤其是在需要處理大規模數據和複雜模型的場景中。這種處理器的成功運行,也為後晶體管時代的計算技術提供了一種新的可能性,也為未來 AI 硬體的發展指明瞭方向。
計算技術的一個歷史時刻
光子計算的發展已醞釀數十載,如今這些全新的突破性成果或許意味著我們即將真正利用“光”的力量,打造出更強大且更節能的計算系統。
光子晶元在能效和性能上的優勢,使其成為未來 AI 硬體的有力競爭者,尤其是在大規模數據處理和複雜模型訓練中。而光子晶元的成功運行證明瞭其在實際 AI 任務中的可行性,為未來光子 AI 硬體的商業化和應用奠定了基礎。
研究人員也指出,光子晶元代表了一個令人興奮且必要的新前沿,最新的研究成果意味著計算技術的下一章不必受制於晶體管的限制,這代表著計算技術的一個歷史時刻。不過,這並不意味著電子計算將消失,相反,我們正在進入一個多種計算範式共存的時代。
尤其值得注意的是,這兩項成果演示中所用的光子晶元和電子晶元均是在標準的互補金屬氧化物半導體(CMOS)廠房中製造的,也正是目前用於生產微電子晶元的廠房。因此,現有製造基礎設施可以被迅速利用以實現大規模生產。
另外,兩套系統均已通過標準“主機板”介面(技術上稱為外設元件互聯高速介面)實現了完整集成,從而使其能夠與現有的各類介面及協定相容。這是計算歷史上首次展示一種非晶體管技術能夠以與現有電子系統相當的精度和效率運行複雜的真實工作負載。這種從理論可能性到實際實施的轉變標誌著計算技術的新篇章,驗證了光子學作為一種能夠顯著影響 AI 處理未來發展的可行解決方案。
不過,雖然光子處理器已經取得了顯著進展,但要想將光子計算徹底作為電子晶元的商業替代方案,仍存在不少技術障礙。例如,如何進一步提高精度、降低功耗,以及如何優化材料和製造工藝等。儘管如此,我們仍有充分理由期待光子晶元在不久的將來能夠走入現實系統。
參考資料: