ChatGPT 整合 GPT-4o 推出圖像生成功能

更新于：2025-03-27 12:43:37

OpenAI 從今天開始將新的圖像生成功能直接整合到 ChatGPT 中——這項功能被稱為"Images in ChatGPT"。用戶現在可以使用 GPT-4o 在 ChatGPT 中直接生成圖像。

這次首次發佈僅專注於圖像創建功能，將面向 ChatGPT Plus、Pro、Team 和免費訂閱層級的用戶開放。發言人 Taya Christianson 告訴 The Verge，免費版的使用限制與 DALL-E 相同，但補充說他們"沒有具體的數位可以分享"，並且"這些限制可能會根據需求隨時間變化"。根據 ChatGPT 常見問題解答，免費使用者此前可以"每天使用 DALL-E 3 生成三張圖片"。至於 DALL-E 的未來，Christianson 表示"粉絲們"將"仍然可以通過自定義 GPT 訪問"。

研究負責人 Gabriel Goh 告訴 The Verge："這個模型相比之前的模型是一個重大進步"，他補充說團隊使用了 GPT-4o "全模態"（一種可以生成文本、圖像、音訊和視頻等任何類型數據的模型）基礎來實現這個功能。

Goh 提到的一些改進包括"綁定"，這指的是 AI 圖像產生器如何維持屬性和對象之間的正確關係；一個綁定能力差的模型可能在收到藍色星星加紅色三角形的提示時，會創建一個紅色星星而沒有三角形。Goh 說，大多數圖像模型在處理這個問題時都很困難，在被要求渲染多個物品（通常是 5 到 8 個）時經常混淆顏色和形狀。他表示，這個新的圖像生成工具可以正確綁定 15 到 20 個物件的屬性而不會混淆，這在準確性和可靠性方面代表了顯著的進步。

使用者還會注意到文本渲染的改進，這使得在圖像上生成連貫的文本而不出現拼寫錯誤變得更容易（在現有工具中，你經常會發現文本很容易變得混亂）。Goh 說，實現正確的文本渲染是一個重大挑戰。如果小標題或文本元素有拼寫錯誤，整個圖像可能變得無法使用。

"這是一個經過多月反覆反覆反覆運算才完成的過程，"Goh 說。雖然還不完美，但他表示團隊已經達到了文本質量持續可用的程度（它在非常小的文字上還是會出現錯誤）。"這是經過數月的小改進才實現的。"

該系統使用自回歸方法——從左到右、從上到下按順序生成圖像，類似於文字的書寫方式——而不是大多數圖像產生器（如 DALL-E）使用的擴散模型技術，後者是一次性創建整個圖像。Goh 推測，這種技術差異可能是賦予 Images in ChatGPT 更好的文本渲染和綁定能力的原因。

在功能發佈前的簡報中，團隊展示了幾個例子來說明系統的功能，包括具有正確標記元件的牛頓稜鏡實驗等科學圖表、具有一致性角色和對話氣泡的多面板漫畫，以及準確文本的信息海報。他們還強調了實際應用，如創建透明背景的貼紙圖像、餐廳功能表和標誌。

ChatGPT 多模態產品負責人 Jackie Shannon 解釋說："當我去畫一張圖像時，我不僅受限於自己的技能......還會用到我積累的所有世界知識。這個模型將世界知識帶入等式中，所以當你要求生成牛頓稜鏡實驗的圖像時，你不需要解釋那是什麼就能得到圖像。"

新系統生成圖像的時間比以前更長，不過 OpenAI 認為這是值得的權衡。Shannon 說："雖然我們在延遲方面肯定還有改進的空間...但這些圖像的品質、功能和世界知識，真的彌補了他們多等待的幾秒鐘。"

在被問到安全保護措施時——提到了使用 Microsoft 模型生成的 Taylor Swift 裸體換臉事件，xAI 的 Grok 能夠渲染持槍的 Kamala Harris，以及 Google Gemini 移除水印的能力——OpenAI 團隊強調該系統包含了強大的安全保護措施以防止濫用。Shannon 說該工具可以防止浮浮浮浮水印移除、阻止生成性相關的換臉內容，並拒絕生成 CSAM 的請求。

OpenAI 的新圖像生成系統不包含視覺浮浮 AI 生成的標識。不過，Shannon 解釋說，"我們生成的所有圖像都將包含標準的 C2PA 元數據，以標記圖像是由 OpenAI 創建的"，並且公司"將有一些內部工具來查找圖像"。

"最終，對於這類問題沒有完美的系統，但我們在不斷改進我們的安全保護措施，我們認為這是一個起點，"Shannon 補充道。"ChatGPT 生成的所有圖像都具有一個共同點，即用戶擁有這些圖像的擁有權，並可以在我們的使用政策範圍內隨意使用它們。"

更新，3 月 25 日：文章最初將 ChatGPT 中的圖像生成功能稱為 Sora；它的正式名稱是 Images in ChatGPT。