ChatGPT 整合 GPT-4o 推出圖像生成功能
更新于:2025-03-27 12:43:37

OpenAI 從今天開始將新的圖像生成功能直接整合到 ChatGPT 中——這項功能被稱為"Images in ChatGPT"。用戶現在可以使用 GPT-4o 在 ChatGPT 中直接生成圖像。

這次首次發佈僅專注於圖像創建功能,將面向 ChatGPT Plus、Pro、Team 和免費訂閱層級的用戶開放。發言人 Taya Christianson 告訴 The Verge,免費版的使用限制與 DALL-E 相同,但補充說他們"沒有具體的數位可以分享",並且"這些限制可能會根據需求隨時間變化"。根據 ChatGPT 常見問題解答,免費使用者此前可以"每天使用 DALL-E 3 生成三張圖片"。至於 DALL-E 的未來,Christianson 表示"粉絲們"將"仍然可以通過自定義 GPT 訪問"。

研究負責人 Gabriel Goh 告訴 The Verge:"這個模型相比之前的模型是一個重大進步",他補充說團隊使用了 GPT-4o "全模態"(一種可以生成文本、圖像、音訊和視頻等任何類型數據的模型)基礎來實現這個功能。

Goh 提到的一些改進包括"綁定",這指的是 AI 圖像產生器如何維持屬性和對象之間的正確關係;一個綁定能力差的模型可能在收到藍色星星加紅色三角形的提示時,會創建一個紅色星星而沒有三角形。Goh 說,大多數圖像模型在處理這個問題時都很困難,在被要求渲染多個物品(通常是 5 到 8 個)時經常混淆顏色和形狀。他表示,這個新的圖像生成工具可以正確綁定 15 到 20 個物件的屬性而不會混淆,這在準確性和可靠性方面代表了顯著的進步。

使用者還會注意到文本渲染的改進,這使得在圖像上生成連貫的文本而不出現拼寫錯誤變得更容易(在現有工具中,你經常會發現文本很容易變得混亂)。Goh 說,實現正確的文本渲染是一個重大挑戰。如果小標題或文本元素有拼寫錯誤,整個圖像可能變得無法使用。

"這是一個經過多月反覆反覆反覆運算才完成的過程,"Goh 說。雖然還不完美,但他表示團隊已經達到了文本質量持續可用的程度(它在非常小的文字上還是會出現錯誤)。"這是經過數月的小改進才實現的。"

該系統使用自回歸方法——從左到右、從上到下按順序生成圖像,類似於文字的書寫方式——而不是大多數圖像產生器(如 DALL-E)使用的擴散模型技術,後者是一次性創建整個圖像。Goh 推測,這種技術差異可能是賦予 Images in ChatGPT 更好的文本渲染和綁定能力的原因。

在功能發佈前的簡報中,團隊展示了幾個例子來說明系統的功能,包括具有正確標記元件的牛頓稜鏡實驗等科學圖表、具有一致性角色和對話氣泡的多面板漫畫,以及準確文本的信息海報。他們還強調了實際應用,如創建透明背景的貼紙圖像、餐廳功能表和標誌。

ChatGPT 多模態產品負責人 Jackie Shannon 解釋說:"當我去畫一張圖像時,我不僅受限於自己的技能......還會用到我積累的所有世界知識。這個模型將世界知識帶入等式中,所以當你要求生成牛頓稜鏡實驗的圖像時,你不需要解釋那是什麼就能得到圖像。"

新系統生成圖像的時間比以前更長,不過 OpenAI 認為這是值得的權衡。Shannon 說:"雖然我們在延遲方面肯定還有改進的空間...但這些圖像的品質、功能和世界知識,真的彌補了他們多等待的幾秒鐘。"

在被問到安全保護措施時——提到了使用 Microsoft 模型生成的 Taylor Swift 裸體換臉事件,xAI 的 Grok 能夠渲染持槍的 Kamala Harris,以及 Google Gemini 移除水印的能力——OpenAI 團隊強調該系統包含了強大的安全保護措施以防止濫用。Shannon 說該工具可以防止浮浮浮浮水印移除、阻止生成性相關的換臉內容,並拒絕生成 CSAM 的請求。

OpenAI 的新圖像生成系統不包含視覺浮浮 AI 生成的標識。不過,Shannon 解釋說,"我們生成的所有圖像都將包含標準的 C2PA 元數據,以標記圖像是由 OpenAI 創建的",並且公司"將有一些內部工具來查找圖像"。

"最終,對於這類問題沒有完美的系統,但我們在不斷改進我們的安全保護措施,我們認為這是一個起點,"Shannon 補充道。"ChatGPT 生成的所有圖像都具有一個共同點,即用戶擁有這些圖像的擁有權,並可以在我們的使用政策範圍內隨意使用它們。"

更新,3 月 25 日:文章最初將 ChatGPT 中的圖像生成功能稱為 Sora;它的正式名稱是 Images in ChatGPT。