OpenAI 推出 GPT-4o 原生圖像生成功能，效果令用戶驚歎

至頂頭條 gpt 模型 o1 mini gemini 谷歌语言模型微软马斯克道德推理奥尔特曼云端情人

更新于：2025-03-26 18:37:11

在 OpenAI 於 2024 年 5 月發佈首個"全能"多模態模型 GPT-4o 即將一周年之際，這款經典模型又帶來了新的驚喜。

今天，OpenAI 終於為 ChatGPT 的 Plus、Pro、Team 和免費用戶開放了 GPT-4o 的原生多模態圖像生成功能。公司表示，該功能很快也將面向企業版、教育版用戶開放，並通過 API 提供服務。

與 ChatGPT 此前使用的生成式 AI 圖像模型（OpenAI 的 DALL-E 3，一個通過去除圖元雜訊從文本提示重建圖像的經典擴散 Transformer 模型）不同，這個新的圖像生成器是輸出文本和代碼的同一模型的一部分，因為 OpenAI 訓練整個模型同時理解所有這些媒體形式。

OpenAI 總裁 Greg Brockman 早在 2024 年 5 月就預覽過 GPT-4o 的這種原生功能，但出於目前尚未公開的原因，公司一直將其保留到現在才發佈——這是在 Google AI Studio 發佈了被許多 AI 高級用戶認為類似的 Gemini 2 Flash 實驗模型功能之後。

這帶來了品質更高的圖像生成器，可以生成更逼真的圖像和更準確的嵌入文字，已經給使用者留下了深刻印象——有使用者稱其品質"令人瘋狂"。

同樣值得注意的是，OpenAI 仍然沒有明確說明 GPT-4o 的圖像生成功能是用什麼數據訓練的——考慮到該公司和其他模型供應商的歷史，很可能包含了從網路上抓取的許多藝術作品，其中一些可能受版權保護，這很可能會激怒這些作品背後的藝術家。

將圖像生成引入 ChatGPT 和 Sora

OpenAI 一直致力於將圖像生成作為其 AI 模型的核心功能。通過 GPT-4o，用戶現在可以直接在 ChatGPT 中生成圖像，通過對話進行完善，並即時調整細節。

該模型還集成到了 OpenAI 的視頻生成平臺 Sora 中，進一步擴展了多模態功能。

在 X 平臺的公告中，OpenAI 確認 GPT-4o 的圖像生成旨在： - 準確渲染圖像中的文字，可以創建標誌、功能表、邀請函和信息圖表 - 精確執行複雜提示，即使在詳細構圖中也能保持高保真度 - 基於先前的圖像和文本構建，確保多次交互中的視覺一致性 - 支援各種藝術風格，從照片寫實到風格化插圖

用戶可以在 ChatGPT 中描述一個圖像，指定諸如寬高比、配色方案 (十六進位代碼) 或透明度等細節，GPT-4o 將在一分鐘內生成它。

正如獨立 AI 顧問 Allie K. Miller 在 X 上所寫，這是"文本生成的巨大飛躍"，是她見過的"最好的" AI 圖像生成模型。

主要功能和用例

GPT-4o 的設計不僅注重視覺效果，還確保實用性。主要應用包括： - 設計與品牌 – 生成帶有精確文本布局的標誌、海報和廣告 - 教育與可視化 – 創建科學圖表、信息圖表和歷史圖像用於學習 - 遊戲開發 – 在不同設計反覆運算中保持角色一致性 - 營銷與內容創作 – 根據品牌需求製作社交媒體素材、活動邀請函和數位插圖

GPT-4o 如何改進 DALL-E 的生成圖像

根據 OpenAI 在 X 上的官方帖子，GPT-4o 相比之前的模型有以下幾項改進：

更好的文本集成： - 與過去在可讀性和文本佈局方面存在困難的 AI 模型不同，GPT-4o 現在可以準確地在圖像中嵌入文字

增強的上下文理解： - GPT-4o 利用聊天歷史，允許使用者互動式地完善圖像，並在多次生成中保持連貫性

改進的多對象綁定： - 雖然之前的模型在正確定位場景中的多個不同物件時存在困難，但 GPT-4o 現在可以同時處理 10-20 個物件

多樣化的風格適應： - 該模型可以生成或轉換圖像為各種風格，從手繪草圖到高解析度照片寫實風格

局限性

儘管取得了進展，GPT-4o 仍然存在一些已知挑戰：

裁剪問題： - 大尺寸圖像（如海報）有時可能裁剪過緊

非拉丁文字的準確性： - 某些非英語字元可能無法正確渲染

小文本的細節保留： - 高度詳細或小字體的文本可能會失去清晰度

編輯精確度： - 修改圖像的特定部分可能會無意中影響其他元素