Chat GPT文生圖不用DALL·E模型了？

鈦媒體APP

更新于：2025-03-26 18:55:17

文 | 王智遠

昨晚，Open AI更新了ChatGPT文生圖能力。

準確來說，這次升級是一次小革命。以前，它藉助DALL—E來生成圖像，現在功能直接融入到ChatGPT裡面了。

新能力能讓ChatGPT生成的圖片更準確。什麼叫準確？按照官方意思，能貼合你的要求。要讓牠生成一個戴眼鏡的貓咪，它會先思考一下，然後畫出來一個更詳細的戴眼鏡的貓咪。

最後一項是修改圖像。哪些細節不滿意，直接告訴它就能修改。

官方直播活動中，也演示了幾個例子。有兩名研究人員和奧特曼拍了一張合影，然後他們讓ChatGPT把這張普通的照片變成動畫風格的畫。結果，ChatGPT輕鬆地就完成了這個任務。

另一個是，團隊要求ChatGPT在生成的圖像上加一些文字，比如在圖片上寫上“Feel The AGI”。ChatGPT也順利地做到了。

看不少介紹的文章后，感覺有些吹捧，於是上午見完朋友，下午回來趕緊試了試。問題是，怎麼區分不同模型之間的能力差異呢？

我讓Qwen幫我寫了個提示詞：

想像一個賽博朋克風格的場景，霓虹燈一閃一閃的，到處都是高樓大廈，樓上有大廣告屏，街上跑著懸浮車，天上飛著無人機，還有一輪紫色的月亮掛在天上，地上的行人穿著高科技的衣服。從高處往下看整個城市，畫面要高清，細節越多越好。

寫完後，把提示詞分別給了GPT和即夢AI。不到20秒，GPT出圖了，它和即夢AI的圖對比來說，每個模型對提示詞的理解不同，兩張圖都有賽博朋克的感覺，但細節上各有特點。

要評價的話，兩張圖片都比較模糊。但即夢AI操作起來比較方便，直接點擊細節修復、超清功能，就能有效提升清晰度，效果明顯。

GPT在這方面稍顯不足，我讓它生成高清一點的圖，結果它又生成了一張圖，遺憾的是，依然沒有達到我的預期。

圖釋：左，Chat GPT；右，即夢AI

因此，從圖像清晰度控制的可控性來看，GPT可能稍弱一些。不過它也有自己的優勢；比如：在調整尺寸上，我提出要1:1尺寸的圖片時，它會給到兩個不同的解決方案，並問我，你覺得哪個更高？更傾向哪個？

重複試了好幾個提示詞，結果依然這樣。

我又試了一下它的新能力：世界知識的功能。官方說，這功能讓AI在生成圖片時，能更好地理解，並用上現實世界裡的知識，做出的圖更貼合使用者的要求，也更符合實際邏輯。

說白了，AI在作圖時，會考慮現實里的細節，像地理位置、文化背景、還有物理規矩啥的。比如，畫個雪山就不會冒出熱帶植物，畫個古代場景不會突然冒出手機。

於是，我讓Qwen幫我又寫了一個提示詞：

生成一張圖，用兩個站在滑板上的人推對方的動作來解釋牛頓第三定律。要求畫面直觀，能清楚展示作用力和反作用力的關係。

給到它後，怎麼評價呢？像那麼回事。它能展示兩個人在滑板上互相推開的關係，而且還增加了一些箭頭和英文解釋；但是，我為什麼覺得這個能力像一個圖像PPT功能呢。

緊接著，我又測試幾輪，分別生成一個人的頭部骨骼、身體骨骼。如果滿分是10分，我最多給6分，因為大部分能力位元組、騰訊的文生圖模型都能做到。

圖釋：左，Chat GPT；右，即夢AI

Sam Altman對這款產品評價很高，表示難以相信這是AI生成的，認為大家會喜歡，並期待使用者用它創作出更多創意內容。

他的目標是盡量避免生成冒犯性內容，認為將創作自由和控制權交給用戶是正確的，但也會關注實際使用方式並聽取社會意見。

Altman希望大家理解，他們在努力平衡自由和責任的關係，確保AI的發展符合大家的期望和道德標準。這些都是老生常談的話。

我覺得，比起它目前的生成能力，更應該關注它為什麼要替代DALL·E模型。要知道，DALL·E模型是OpenAI在2021年1月發佈的模型。作為老模型，難道不應該持續反覆運算，讓它更強大嗎？

實際上，關鍵在於DALL-E模型核心架構是自回歸模型。

什麼是自回歸模型呢？

它利用自身歷史的數據來預測未來的數據。工作方式是把圖像拆解為一系列token（類似於文字中的單詞），然後像寫作文一樣，一個token一個token地生成圖像。

舉個例子：

你要畫一隻貓，你先畫了貓的頭，然後根據頭的樣子再畫眼睛，再根據眼睛和頭的關係畫鼻子，一步步來，不能跳過任何一個步驟。這就是自回歸模型的工作方法。

優點是能保證細節，缺點很明顯，一，速度跟不上、二，前面要是畫錯了，後面很難調整；因此，OpenAI選擇用新的模型來替代它。

那麼，替代后的模型什麼樣呢？答案是非自回歸模型（Non-autoregressive models），它改變了核心架構。

這個架構會先理解整個圖的結構和細節，更像學生先聽完老師講完題目，把整張畫的輪廓搞出來，再一點點填細節。比如：畫隻貓，先勾勒出貓的外形，再去細化毛髮、眼睛。

這種模型採用一種特殊的編碼、解碼架構來實現目標。簡單來說，編碼器負責“讀題”，理解你輸入的文字；解碼器負責“作答”，根據文字生成圖片。

優勢在於，一，不再像老方法那樣一步步、逐圖元地生成圖像，效率更高，二，整體表現更強，特別是在複雜場景里，能更好地處理多個物體之間的關係，生成的圖片更逼真。

好比畫一個桌子上有杯子、書本和檯燈的場景，非自回歸模型能更自然地處理東西的位置和光影效果，不會顯得亂七八糟。而且，它對複雜的文字指令理解得更好，生成的圖片和描述基本能做到符合邏輯。

還有一個特點：這種模型靈活性強，能融合到多模態里，比如，把它塞進ChatGPT 4.0里，它不僅能看圖，還能結合音訊或已有的圖像，進而生成更多樣化的內容。

因此，Open AI這一步本質做了一次小小的自我革命。

春節時，DeepSeek發佈一款文生圖模型Janus-Pro，關注過的人應該知道，它採用了非自回歸的框架。Janus系列中的Janus-Pro-7B模型，在GenEval的準確率上達到了80%，甚至超過DALL-E 3的61%。

我查了一下，這種非自回歸模型最早在2018年的ICLR會議上提出，最初應用於神經機器翻譯（Neural Machine Translation, NMT）領域，目的是加速推理速度。

從論文綜述來看，微軟在2022年5月13日進行了進一步研究。而國內2023年左右，阿裡巴巴、科大訊飛、崑崙萬維、雲從科技等一系列企業已經引入這一技術。

所以，OpenAI是看到了國內對這一模型應用的成熟，開始反思自己了嗎？

AI健身捲土重來，二次泡沫還是真正的顛覆？

2025-04-06 10:22:56

港澳人買爆珠海山姆，港澳本地商超哭了

2025-04-06 13:52:29

年輕人愛上“打野”：有人賣“神器”每月數萬，有商家生意增長300%

2025-04-07 17:58:37