在週二的直播中,OpenAI 首席執行官 Sam Altman 宣佈了 ChatGPT 一年多以來首次重大的圖像生成功能升級。
ChatGPT 現在可以利用公司的 GPT-4o 模型原生創建和修改圖像及照片。GPT-4o 一直是這個 AI 驅動的聊天機器人平台的基礎,但直到現在,該模型只能生成和編輯文本,而不能處理圖像。
Altman 表示,GPT-4o 原生圖像生成功能現已在 ChatGPT 和 OpenAI 的 AI 視頻生成產品 Sora 上線,面向該公司每月 200 美元專業版計劃的訂閱用戶開放。OpenAI 表示,該功能將很快向 ChatGPT 的 Plus 用戶和免費用戶開放,同時也會向使用公司 API 服務的開發者開放。
與其實際替代的圖像生成模型 DALL-E 3 相比,具有圖像輸出功能的 GPT-4o 在生成過程中會"思考"更長時間,以創建 OpenAI 所描述的更準確和更詳細的圖像。GPT-4o 可以編輯現有圖像,包括含有人物的圖像——對其進行轉換或"修復"前景和背景對象的細節。
據 OpenAI 向《華爾街日報》透露,為了支援新的圖像功能,他們使用"公開可用的數據"以及與 Shutterstock 等公司合作獲得的專有數據來訓練 GPT-4o。
許多生成式 AI 供應商將訓練數據視為競爭優勢,因此對其相關信息嚴格保密。同時,訓練數據細節也可能引發智慧財產權相關訴訟,這是公司不願透露太多資訊的另一個原因。
OpenAI 首席運營官 Brad Lightcap 在向《華爾街日報》的聲明中表示:"在輸出方面,我們尊重藝術家的權利,並且我們制定了相關政策,防止生成直接模仿任何在世藝術家作品的圖像。"
OpenAI 提供了一個退出表單,允許創作者請求將其作品從訓練數據集中移除。該公司還表示,會尊重網站禁止其網路爬蟲收集訓練數據(包括圖像)的請求。
ChatGPT 升級后的圖像生成功能緊隨 Google 旗艦模型之一 Gemini 2.0 Flash 的實驗性原生圖像輸出功能之後。這個強大的功能在社交媒體上迅速傳播——但並非都是好事。Gemini 2.0 Flash 的圖像元件似乎缺乏足夠的安全限制,允許使用者移除浮浮浮水印並創建包含受版權保護角色的圖像。