在 OpenAI 於 2024 年 5 月發佈首個"全能"多模態模型 GPT-4o 即將一周年之際,這款經典模型又帶來了新的驚喜。
今天,OpenAI 終於為 ChatGPT 的 Plus、Pro、Team 和免費用戶開放了 GPT-4o 的原生多模態圖像生成功能。公司表示,該功能很快也將面向企業版、教育版用戶開放,並通過 API 提供服務。
與 ChatGPT 此前使用的生成式 AI 圖像模型(OpenAI 的 DALL-E 3,一個通過去除圖元雜訊從文本提示重建圖像的經典擴散 Transformer 模型)不同,這個新的圖像生成器是輸出文本和代碼的同一模型的一部分,因為 OpenAI 訓練整個模型同時理解所有這些媒體形式。
OpenAI 總裁 Greg Brockman 早在 2024 年 5 月就預覽過 GPT-4o 的這種原生功能,但出於目前尚未公開的原因,公司一直將其保留到現在才發佈——這是在 Google AI Studio 發佈了被許多 AI 高級用戶認為類似的 Gemini 2 Flash 實驗模型功能之後。
這帶來了品質更高的圖像生成器,可以生成更逼真的圖像和更準確的嵌入文字,已經給使用者留下了深刻印象——有使用者稱其品質"令人瘋狂"。
同樣值得注意的是,OpenAI 仍然沒有明確說明 GPT-4o 的圖像生成功能是用什麼數據訓練的——考慮到該公司和其他模型供應商的歷史,很可能包含了從網路上抓取的許多藝術作品,其中一些可能受版權保護,這很可能會激怒這些作品背後的藝術家。
將圖像生成引入 ChatGPT 和 Sora
OpenAI 一直致力於將圖像生成作為其 AI 模型的核心功能。通過 GPT-4o,用戶現在可以直接在 ChatGPT 中生成圖像,通過對話進行完善,並即時調整細節。
該模型還集成到了 OpenAI 的視頻生成平臺 Sora 中,進一步擴展了多模態功能。
在 X 平臺的公告中,OpenAI 確認 GPT-4o 的圖像生成旨在: - 準確渲染圖像中的文字,可以創建標誌、功能表、邀請函和信息圖表 - 精確執行複雜提示,即使在詳細構圖中也能保持高保真度 - 基於先前的圖像和文本構建,確保多次交互中的視覺一致性 - 支援各種藝術風格,從照片寫實到風格化插圖
用戶可以在 ChatGPT 中描述一個圖像,指定諸如寬高比、配色方案 (十六進位代碼) 或透明度等細節,GPT-4o 將在一分鐘內生成它。
正如獨立 AI 顧問 Allie K. Miller 在 X 上所寫,這是"文本生成的巨大飛躍",是她見過的"最好的" AI 圖像生成模型。
主要功能和用例
GPT-4o 的設計不僅注重視覺效果,還確保實用性。主要應用包括: - 設計與品牌 – 生成帶有精確文本布局的標誌、海報和廣告 - 教育與可視化 – 創建科學圖表、信息圖表和歷史圖像用於學習 - 遊戲開發 – 在不同設計反覆運算中保持角色一致性 - 營銷與內容創作 – 根據品牌需求製作社交媒體素材、活動邀請函和數位插圖
GPT-4o 如何改進 DALL-E 的生成圖像
根據 OpenAI 在 X 上的官方帖子,GPT-4o 相比之前的模型有以下幾項改進:
更好的文本集成: - 與過去在可讀性和文本佈局方面存在困難的 AI 模型不同,GPT-4o 現在可以準確地在圖像中嵌入文字
增強的上下文理解: - GPT-4o 利用聊天歷史,允許使用者互動式地完善圖像,並在多次生成中保持連貫性
改進的多對象綁定: - 雖然之前的模型在正確定位場景中的多個不同物件時存在困難,但 GPT-4o 現在可以同時處理 10-20 個物件
多樣化的風格適應: - 該模型可以生成或轉換圖像為各種風格,從手繪草圖到高解析度照片寫實風格
局限性
儘管取得了進展,GPT-4o 仍然存在一些已知挑戰:
裁剪問題: - 大尺寸圖像(如海報)有時可能裁剪過緊
非拉丁文字的準確性: - 某些非英語字元可能無法正確渲染
小文本的細節保留: - 高度詳細或小字體的文本可能會失去清晰度
編輯精確度: - 修改圖像的特定部分可能會無意中影響其他元素
OpenAI 正在通過持續的模型改進來解決這些問題。
安全和標籤措施
作為 OpenAI 負責任 AI 開發承諾的一部分,所有 GPT-4o 生成的圖像都包含 C2PA 元數據,允許使用者驗證其 AI 來源。
此外,OpenAI 還建立了內部搜索工具來幫助檢測 AI 生成的圖像。
系統設有嚴格的保護措施來阻止有害內容和防止濫用,比如禁止生成露骨、欺騙性或有害的圖像。
OpenAI 還確保對包含真實人物的圖像施加更嚴格的限制。
OpenAI CEO Sam Altman 將此次發佈描述為"創作自由的新高度",強調使用者將能夠創建廣泛的視覺內容,同時 OpenAI 將基於實際使用方式觀察和完善其方法。
隨著 AI 生成圖像變得更加精確和易於使用,GPT-4o 代表著將文本轉圖像生成技術轉變為主流通信、創意和生產力工具的重要一步。