ChatGPT文生圖大升級,非自回歸模型引領AI作圖新潮流
更新于:2025-03-26 21:35:51

近日,OpenAI在其人工智慧技術中邁出了重要的一步,更新了ChatGPT的文生圖功能,這一變動標誌著AI圖像生成領域的一次小幅度革新。以往,ChatGPT依賴DALL-E模型來完成圖像生成任務,但此次更新後,這一功能被直接整合進了ChatGPT本身。

新升級后的ChatGPT在圖像生成上表現出了更高的準確性。所謂準確性,即指其生成的圖像更加貼近用戶的實際需求。例如,當使用者要求生成一張戴眼鏡的貓咪圖片時,ChatGPT會先進行分析,然後輸出一張細節豐富的、符合要求的圖片。ChatGPT還增加了圖像修改功能,用戶可以根據需要對生成的圖像進行調整,直至滿意。

在OpenAI的官方直播活動中,研究人員展示了ChatGPT在圖像生成方面的幾個實例。其中,一張普通的研究人員與奧特曼的合影被ChatGPT輕鬆轉換為動畫風格的畫作。另一個示例中,ChatGPT成功地在生成的圖像上添加了指定的文字,如“Feel The AGI”。

為了親自體驗這一新功能,作者在朋友聚會後進行了嘗試。作者通過設定一個詳細的提示詞,要求ChatGPT和另一款名為即夢AI的圖像生成軟體分別生成一張賽博朋克風格的城市圖片。結果顯示,兩款軟體生成的圖片都捕捉到了賽博朋克的精髓,但在細節上各有千秋。不過,從圖像清晰度的可控性來看,GPT略遜一籌。即夢AI提供了便捷的細節修復和超清功能,能夠顯著提升圖像的清晰度,而GPT在多次嘗試后仍未達到作者的預期。

儘管在清晰度控制上有所欠缺,但ChatGPT在其他方面展現出了其獨特的優勢。例如,在調整圖片尺寸時,ChatGPT會提供多個解決方案,並詢問使用者更傾向於哪一種。這種互動性為使用者提供了更多的選擇空間。

ChatGPT還新增了世界知識功能,這一功能使得AI在生成圖片時能夠更好地理解並應用現實世界的知識,從而生成更加符合邏輯和實際情況的圖片。例如,在繪製雪山時,ChatGPT不會錯誤地添加熱帶植物;在描繪古代場景時,也不會出現現代科技產品。

為了測試這一新功能,作者設定了一個提示詞,要求ChatGPT生成一張通過兩個站在滑板上的人推對方的動作來解釋牛頓第三定律的圖片。結果顯示,ChatGPT能夠準確地展示兩個人在滑板上互相推開的關係,並添加了箭頭和英文解釋來增強直觀性。然而,作者認為這一功能在某種程度上類似於一個圖像PPT功能,缺乏一些創新性和深度。

在後續的測試中,作者還分別生成了人的頭部骨骼和身體骨骼圖片。儘管這些圖片在品質上並不算頂尖,但已經能夠滿足大部分基本需求。與此同時,國內的一些AI圖像生成模型如位元組、騰訊的文生圖模型也具備了類似的功能。

OpenAI的首席執行官Sam Altman對這次更新表示了高度讚賞,認為ChatGPT生成的圖片品質令人難以置信,並期待用戶能夠利用這一功能創作出更多富有創意的內容。同時,他也強調了OpenAI在平衡創作自由和控制權方面的努力,以確保AI的發展符合社會的期望和道德標準。

然而,作者認為,與ChatGPT目前的生成能力相比,更值得關注的是其為何要替代DALL-E模型。作為OpenAI在2021年發佈的模型,DALL-E本應持續反覆運算以變得更加強大。然而,事實上,DALL-E模型的核心架構是自回歸模型,這種模型在生成圖像時存在速度慢和難以調整的問題。因此,OpenAI選擇採用非自回歸模型來替代它。

非自回歸模型的工作方式是先理解整個圖像的結構和細節,然後一次性生成整個圖像。這種模型具有更高的效率和更強的整體表現,特別是在處理複雜場景時能夠更自然地處理多個物體之間的關係和光影效果。非自回歸模型還具有更強的靈活性和可擴充性,能夠融合到多模態中生成更多樣化的內容。

值得注意的是,非自回歸模型並非OpenAI的獨創。早在2018年的ICLR會議上就有人提出了這一概念,並最初應用於神經機器翻譯領域。近年來,國內的一些企業如阿裡巴巴、科大訊飛等也已經引入了這一技術。因此,OpenAI此次的更新可能是看到了國內在這一領域的成熟應用並開始反思和調整自己的策略。