國內光子計算新突破!全球首度支持商用AI演算法,能跑大模型,靈活可程式設計,集成數暴增
更新于:2025-03-26 01:32:27

全球首個支援商用AI演演算法的光電混合計算產品,下一代光子矩陣規模提升4倍。

作者 | ZeR0

編輯 | 漠影

飆漲的算力需求,正拉開數據中心基礎設施升級的大幕。矽光技術的優越性日益凸顯,從遠距離的光通訊到晶元里的光計算掀起技術革新。

芯東西3月25日報導,今日,全球光子計算賽道融資規模最高的公司曦智科技,發佈全新可程式設計光電混合計算卡——天樞

這是全球首個支援商用AI演算法的光電混合計算產品,在支援科學計算(如伊辛演算法)的基礎上,加強了對ResNet-50等演算法應用的支援,並可支援運行Llama算法,DeepSeek最近也正在調試。

天樞採用3D先進封裝技術,其核心由光學處理單元(OPU)專用積體電路(ASIC)組成,單晶元面積、器件集成數均大幅提升。

相比日漸逼近物理極限的傳統電子晶片,光電混合計算晶元具備高通量、高能效比、超低延遲等優勢。

上一代光子計算處理器PACE包含64x64光學矩陣,而天樞將矩陣規模擴大4倍128x128,單晶元面積擴大到600mm²,主頻1GHz,可應用於深度學習、圖像處理、科學計算等場景。

其一大亮點在於可程式設計性。用戶可通過API靈活配置光子計算矩陣的係數,從而運行更多定製化演算法,滿足多樣化的計算需求。

天樞還憑藉PCIe Gen4 x 16高速介面,實現了與現有計算機系統的無縫集成和高效擴展,以便光子計算技術能夠更加便捷地融入各類高性能計算環境。

這些特性使得天樞成為光子計算在複雜多變場景下新應用探索的可靠平臺。

在曦智科技上海辦公室,芯東西與曦智科技創始人兼CEO沈亦晨博士、曦智科技聯合創始人兼CTO孟懷宇博士、曦智科技COO王瀧進行深入交流。

此前光計算常被描述為比電計算快10000倍,但在落地中要實現精度與速度的平衡,真實數據遠達不到這麼誇張。

據沈亦晨透露,曦智科技的目標是讓光計算儘快在商業場景中可用,實現比電計算3-5倍性價比提升,其光電混合計算晶元已處於可量產狀態,接近直接可插拔到現有伺服器中。

目前,曦智科技產品在供應鏈上已實現國產自主可控

曦智科技計劃到2027年,將下一代超大規模高頻光電混合晶元升級到256x256光學矩陣,預計2026年年底出樣片、2027年發佈。

沈亦晨坦言現有光電混合計算卡運行大模型的速度還不是很快,下一代將提供更大的存儲頻寬和容量。曦智科技另一條光子網路產品線的最大優勢便是提升頻寬,計劃將片上互連和片間互連技術應用到下一代產品中。

下一代預計很多顆光計算晶元和存儲晶元將通過光互連方式連接,在大模型推理上發揮優勢。

01.

瞄準低延遲場景,發揮光計算優勢,

往後發展大模型推理

2017年6月,沈亦晨博士作為第一作者和通訊作者的論文發表於國際學術頂級期刊《自然·光子》封面。這一研究開創性地提出了光子AI計算新路徑,吸引了十幾家初創公司相繼成立。

曦智科技是沈亦晨在2017年博士畢業後成立的第一家公司,核心成員由來自麻省理工學院的頂尖科學家和擁有豐富半導體行業經驗的業界知名人士組成,如今已發展成全球光電混合賽道的產品進展、技術研發領跑者,在上海、杭州、南京、北京、新加坡等地均設有辦公室及實驗室。

當前曦智科技擁有近250人的團隊,估值約70億人民幣

孟懷宇告訴芯東西,光電混合計算的技術原理決定它在通用性上與CPU、GPU等傳統通用晶片存在差距,光器件不能做得比波長小太多。沈亦晨補充說,考慮到能繼續縮減的空間有限,提升器件密度,可能更多利用主頻和光分復用的方法去優化的空間更大。

沈亦晨解釋說,光電混合晶元的市場定位與GPU不同,瞄準的是對低延遲有高需求的應用場景,可以跑出電晶元跑不出的效果,還有一些早期客戶偏向產教研實驗研究,往後發展可能會更聚焦大模型推理方向。

在大模型適配方面,曦智科技將在體現光計算優勢的情況下,盡可能擴大通用性,押注於以矩陣乘法為核心的主流Transformer架構,繼續沿用高頻寬,用光做矩陣乘法,電晶元通過引入RISC-V等方式,引入更通用的算子。

目前其行業應用案例包括EDA、量化交易、銀行安全等,比如用於優化光電混合晶元EDA流程中的應用、在風險價值計量中的應用、在銀行帳戶欺詐識別中的應用。

未來曦智科技光計算產品將落地於藥物發現、基因工程、金融工程、圖像識別、醫療影像分析、工業設計等應用場景。

02.

光電混合計算通用性令人驚喜,

優化重點是提升精度

大數據越來越大的比例是在做線性運算,曦智科技則發明瞭一種用光高效做線性計算的方式。

光在非均勻介質中傳播和散射時,其形態類似於某種形式的數學線性運算。曦智科技利用光執行向量矩陣演算法,當光進入系統時,它會被一組光學數據機編碼以形成輸入光向量,然後進入可程式設計光學散射介質的區域,輸入光向量經過矩陣後,輸出光向量自然就代表了矩陣乘法的結果。

由於矩陣乘法本身是被動的,這個過程中不會消耗能量,且延遲很低,最後高能效和低時延性能與輸入光信號的頻率無關,這就意味著光矩陣可以支援高通量。

2019年4月,曦智科技推出全球首款光子晶元原型板卡,運行神經網路模型來識別手寫數字圖像,用時只有當時最先進電子晶元的不到1%。

但這遠未發揮出矽光技術的潛力,要將其理論優勢變為現實,一個關鍵的步驟是將大量的光子和電子器件集成在一起。2021年12月,曦智科技推出光子計算處理器PACE,將單晶元集成的光子器件數量提高到超過10000個,運行1GHz系統時鐘,在解決伊辛問題(Ising)和最大割/最小割問題(Max-cut/Min-cut)時,PACE的運算速度可達當時高端GPU的數百倍

北京大學研究員常林分享了對曦智科技第一代產品的感受,覺得對其能處理問題的通用性感到驚喜,遠超他們的預期。

自動駕駛需要藉助光技術來實現精密探測,其團隊將曦智光電加速卡應用於雷達成像,能夠處理規模為5000 x 5000左右的複數矩陣,精度達到8bit70%以上的運算在曦智科技光子計算評估板Gazelle上實現。

他期待更大規模的光學計算硬體,進一步提升精度和糾錯軟硬優化演算法,並提供更好的軟體支援,包括封裝好的conv、linear等常見API介面。

03.

天樞三大關鍵技術提升:引入3D先進封裝工藝,提升光電集成度和可程式設計性

今天,天樞在處理器上進一步升級,採用了將OPU與ASIC優勢組合的光電混合處理器,引入Flip-chip + TSV先進封裝工藝,將矩陣規模增至128x128,深度融合光與電、硬體與軟體優勢,實現了光電集成度、光學矩陣規模、精度、可程式設計性等方面的提升。

天樞的關鍵技術提升總體分三個方面:光計算精度、硬體、軟體

1、光計算精度提升

相比上一代光子計算處理器PACE,天樞採用的光電混合處理器優化了向量數據機的設計,主頻為1GHz,向量提升到uint4,權重精度支援int4,輸出精度提升到8bit。

這帶來的好處是,增強了天樞處理複雜數據和大規模運算的能力,並顯著提高了計算結果的準確性和可靠性,減少了量化誤差,能夠滿足當前主流AI模型的推理需求

2、光電混合晶片+3D先進封裝

天樞採用的OPU+ASIC光電混合處理器,由光晶元核心(PIC)和電晶元核心(EIC)組成,採用被動散熱方式,熱設計功耗為50W(包含內置雷射器)。

光晶元更多承接線性計算和數據網路等主要任務,由電晶片發出指令以及與客戶交互,使處理器能與現有市場軟體環境相容。

光晶元核心包含光學張量處理單元,支持INT4/UINT4輸入精度、時延為200ps,峰值算力達到32TOPS。電晶元核心包含電張量加速計算單元和光計算控制單元,峰值算力同樣達到32TOPS

通過將ASIC的並行計算能力與OPU的光處理特性相結合,這種設計極大提高了處理效率,不僅突破了傳統電子處理器在速度和能耗方面的局限,還顯著提升了光計算的精度。

同時,天樞開創性地實現了TSV(矽通孔)+FlipChip(倒裝晶片)的光電混合3D先進封裝,是曦智科技在光電混合計算技術應用的又一重大突破。據孟懷宇博士分享,曦智科技將光晶元打薄到100μm以下,通過將電晶片與光晶片3D堆疊,如圖將光晶元打孔,就可以從基板垂直的有電信號去供電。

Flip-chip通過直接將晶元的有源面朝下安裝在基板或另一晶元上,極大提高了光電晶片間的互連密度,減少了互連線長度,從而降低信號延遲並增強數據傳送速率。

TSV技術作為3D集成和系統級封裝的關鍵組成部分,主要解決了傳統封裝中常見的IR drop(電壓降)問題。該技術可顯著縮短電流路徑,降低傳輸延時;減少電阻和電感,進而降低電壓,提升散熱能力,確保電源更穩定、更有效地供應到晶元的各個部分,提高光電晶元的互連密度,節省晶片面積。

此外,TSV還大幅提高了PCIe等高速信號介面的信號完整性(SI)性能,減少了信號衰減和串擾,使得數據傳輸更加準確可靠。

3、軟體:提供豐富算子,加速便捷部署

曦智光電混合計算算子庫包含RVV(RISC-V Vector)算子、電矩陣(dMAC)加速算子、光矩陣(oMAC)加速算子,支援電腦視覺類、大語言模型類模型。用戶藉助曦智編譯器,可以靈活地運用這些算子來構建高效的應用模型。

其平臺還支援使用者自定義算子,通過OpenCL C/C++語言進行編譯和優化,進一步擴展了演算法開發的靈活性。

曦智科技的軟體棧與PyTorch、ONNX等主流框架深度集成。客戶以通過軟體棧直接使用天樞的光矩陣和電矩陣加速單元,對模型和演算法進行加速和驗證,也可以將模型通過曦智編譯框架編譯部署在端側進行推理。

曦智光子計算模擬器是軟體棧中的一大亮點,為使用者提供了便捷的光計算單元構建與模擬類比功能,能夠顯著加速使用者在光計算平臺上的演算法探索與驗證過程,助力科研與應用的快速推進。

曦智科技還將積極推進光計算開發者生態建設,通過專項基金培育未來行業人才,與高校及研究機構建立合作夥伴關係,以及推進數百萬級別的合作專案。

04.

兩大產品線,三大核心技術

針對未來計算範式的大趨勢,曦智科技以光子矩陣計算(oMAC)、片上光網路(oNOC)、片間光網路(oNET)三大核心技術出發,打造光子計算光子網路兩大產品線,建立圍繞軟硬體、開發者、產業三大生態的完整光電混合算力新生態。

光子計算產品線利用光子矩陣計算及光子網路的技術優勢,為客戶在特定使用場景下,提供定製化的解決方案,實現高算力、低延時的優越性能。主要產品有:可程式設計光電混合計算卡天樞、光子計算處理器PACE、AI推理卡OptiHummingbird、光子計算評估板Gazelle

光子網路產品線利用曦智自研集成光子技術,為客戶提供卡間(B2B)、服務期間(S2S)、機架間(R2R)等多層級的互連解決方案模組,實現大規模數據中心的性能擴展,主要產品包括其首款適用PCIe和CXL協定的數據中心計算光互連硬體產品Photowave系列

還有集成鐳射光源產品Moonstone,具有小型化、高功率、低功耗、單/多波長等特點,可實現多至8個通道波長的光輸出,支援曦智科技所有產品系列,也可以為第三方應用提供雷射光源解決方案。

曦智科技的三大核心技術如下:

oMAC(Optical Multiply Accumulate)光子矩陣計算是一種用光子替代傳統電子進行數據處理的模擬計算,可顯著提升單節點內算力。它通過光的強度或相位類比數位信號,在光信號通過光學矩陣的同時完成計算,不消耗額外的能量。

oMAC執行的線性運算亦可理解為矩陣-矩陣或矩陣-向量之間的乘法,技術優勢有:1)光計算並行能力更強;2)能效媲美甚至更優於電計算;3)光子計算延遲超低;4)矽光對工藝製程和成本要求較低。

oNOC(Optical Network on Chip)片上光網路是一種單節點內的互連技術,通過用光波導代替銅導線的方式,讓數據在光晶元網路中傳遞,可實現單個電晶片(EIC)內不同單元間的高速數據傳輸,及同一封裝內部多個電晶元之間的高速數據通信。

其技術優勢包括:1)高頻寬、低能耗、低延遲、距離不敏感;2)通用性強,可實現不同類型電子晶片間高速、低能耗的互連,有效擴大晶元面積,提升單節點性能;3)適用於任何有高頻寬需求的應用場景,使計算架構設計更靈活,實現更複雜的拓撲結構,優化提升系統利用率。

oNET(Optical inter-chip Networking)片間光網路是一種多節點間的光互連技術,使光晶元起到類似optical BUS的作用,將同一單元內部需要傳輸的數據集中起來,通過光傳播介質(如光纖)與其他單元進行數據交互。

該技術的優勢有:1)高頻寬,低延遲,高能效比,有效提升數據中心內不同計算硬體的工作負載效率;2)對傳輸距離不敏感,賦能可重構解耦架構數據中心的資源池化和橫向擴展。

曦智科技開創性的光電混合算力範式將推動電子晶片設計、軟體開發、封裝等各環節走向新的技術前沿。

電子設計領域,提供領先的模擬設計、數位設計技術,超高速的互連技術,高速高精度的數模轉換技術,以及與矽光的超高密度的共封集成技術。

3D封裝技術方向,集成矽光晶片與電子晶片需以3D封裝形式堆疊而成,從而保證兩者無縫協同運作。

激光器小型化技術方向,通過自研技術,將外置雷射器小型化,最終實現雷射器在板卡上的集成封裝,有效降低成本和穩定性。

05.

結語:突破晶體管限制,

光+電是未來的答案

進入算力需求爆發的時代,傳統電子晶片晶體管微縮接近物理極限,算力供應日漸捉襟見肘,功率、通信、記憶體訪問等方面都成為限制算力擴展的瓶頸。

有效的技術解決方案包括通過存算一體減少存儲和計算之間的數據搬運、打破“記憶體牆”,或是通過專用架構、把晶片晶體管進行重新排列、針對場景深度優化,以提高計算利用率,這兩種方式解決的是存儲頻寬和晶體管使用效率問題,但並不能從根本上解決晶體管數量限制或絕對算力的問題。

囿於銅導線有電阻,在銅導線上的數據搬運會產生熱量。隨著摩爾定律放緩、登納德縮放比例失效(集成度提升遇到功耗和散熱瓶頸,“功耗牆”問題阻礙晶體管密度持續提升),曦智科技團隊認為,光+電會是未來的答案

光電混合計算是一種更偏底層技術的創新,和電晶元一樣可以做近存計算或流式計算。光計算可通過提高主頻,或者波分複用的波長數量,來進一步增加單位面積的絕對算力提升。

光電混合計算有望突破晶體管限制,解決單位面積的絕對算力,無論多大主頻,都不會產生熱量。當前光子技術無法完全取代電子技術,電晶片提供存儲單元,更擅長高精度和非線性運算。

沈亦晨博士強調說,光子計算技術當前可以解決部分矩陣計算,暫時還沒有解決用光來做高速讀取存儲功能或一些高精度邏輯演算法,這些部分仍需用電子晶元來實現。