多模態又考驗算力了!ChatGPT文生圖功能太火爆 奧爾特曼:GPU“冒煙了”
更新于:2025-03-28 18:12:14

《科創板日報》3月28日訊(編輯 宋子喬) 隨著OpenAI的圖像生成功能完成重大升級,新的問題出現了。

OpenAI創始人Sam Altman表示:ChatGPT的文生圖應用需求過高,我們的GPU“冒煙了”(melting,原為融化之意),在努力提高效率的同時,將暫時對ChatGPT生成圖片的功能引入一些速率限制。

這意味著,OpenAI將對ChatGPT的圖像生成功能實施臨時限速,降低單位時間內的請求處理量,緩解GPU過載壓力,並優先保障文本生成、對話等核心功能的穩定性,或許將暫時放緩圖像生成的技術優化節奏。

此前3月26日,OpenAI推出基於GPT-4o模型的圖像生成功能——Images in ChatGPT,使用者可在ChatGPT及Sora平臺直接通過自然語言指令生成、編輯圖像,支援多輪反覆運算優化。這標誌著ChatGPT正式將文本、圖像、代碼等多模態能力深度整合,實現從單一語言模型向全模態智慧體的跨越。

該功能上線后,以“動動嘴就能P圖”的便利迅速火爆,互聯網平臺上湧入大量由個人照片、知名梗圖轉變而來的“吉卜力”卡通風格圖片。連Altman也感歎起該功能帶來的潑天流量:“自己過去十年埋頭苦幹做AI,試圖幫助實現超級智慧來治癒癌症之類的事情。前7.5年幾乎無人問津,接下來的兩年半,做什麼都會引來所有人的厭惡。然後某天醒來收到幾百條消息,人們告訴你被畫成了吉卜力風格的美少年。”

Sam Altman在社交平臺上的新頭像,生成自Images in ChatGPT

生成自Images in ChatGPT

生成自Images in ChatGPT

與此同時,由於圖像生成功能的受歡迎程度遠超預期,OpenAI原本計劃本周向所有使用者推送這項功能,但現在“被迫”推遲了向免費用戶開放新功能的時間。

與作為擴散模型運行的DALL•E根本區別是,GPT-4o圖像生成是原生嵌入在ChatGPT中的自回歸模型。OpenAI根據在線圖像和文本的聯合分發來訓練模型,使得模型可以學習圖像與語言的關係,使其生成有用、一致且具備上下文感知的圖像。

GPU就像一群超級快的“畫師”,能同時處理大量計算任務,生成圖片(如DALL•E、Stable Diffusion)需要AI逐像素計算,每一步都要處理海量數據。而讓AI生成更精確、更高清的圖像依賴於GPU的大規模並行計算。OpenAI提到,因為這個模型會創建更詳細的圖片,所以圖像需要更長的渲染時間,通常會達到一分鐘。

如此一來,文生圖功能的使用者越多,需要的GPU算力成倍增長。

解決方式主要有兩種,更強的GPU或更高效的AI模型,前者走“力大磚飛”路線,後者寄希望於演算法的優化,即通過改進AI演算法讓同樣的GPU能處理更多任務(比如用更小的模型或壓縮技術)。

作為AI領域的頭部玩家,OpenAI背後的GPU儲備自然是業內頂尖水準。根據技術諮詢公司Omdia的分析,微軟作為OpenAI的主要投資者,在2024年購買了約48.5萬塊英偉達的Hopper晶片,是其主要競爭對手Meta的兩倍,這使其成為英偉達GPU的最大買家。OpenAI的大模型正是用微軟的Azure雲基礎設施進行訓練。

可以說,OpenAI因新功能面臨的問題,折射了AI多模態技術發展中的資源與需求平衡難題,一方面,AI應用對GPU等算力資源的需求依然龐大,另一方面,行業繼續呼喚技術反覆運算,以求高效利用現有資源。

納指跌幅擴大至6%
納指跌幅擴大至6%
2025-04-04 09:23:03