AI觀察｜吉卜力畫風火了，“多模態”探索成AI發展關鍵

GPT 4o AI 模型 OpenAI 功能生圖吉卜力環球網科技 vdt 模态生成人工智能

更新于：2025-04-09 04:52:00

【來源：環球網】

【環球網科技報導記者秦耳】如果留心自己的朋友圈，你或許會被近日席捲社交平臺“吉卜力”風所席捲，以往沉寂已久的朋友也會在朋友圈中曬出自己的吉卜力照片。這些圖片大都來自GPT-4o更新的生圖功能。第一，圖像生成功能僅供ChatGPT Plus、Pro和Team訂閱者使用，他們於3月2日獲得訪問許可權。與早期模型不同，ChatGPT現在能夠在單幀中生成包含10到20個不同物件的圖像，從而極大增強了其創造能力。

自推出以來，社交媒體平臺上就充斥著吉卜力風格的圖片。用戶們創造性地嘗試各種主題，包括家人和朋友的個人照片，以及受網路文化啟發的作品。

以至於OpenAI CEO 山姆·奧特曼在個人社交賬號發佈了一條令自己都哭笑不得的動態：“我花了十年想用AI幫人類治療疾病，前七年半沒人搭理我，后兩年半大家還都挺煩我。結果有一天醒來，突然看到成千上百條留言說，把我做成了吉卜力風格的小白臉。”同時，他表示希望大家冷靜對待這個功能，這個突然“病毒式傳播”的功能讓OpenAI的算力告急，導致系統壓力巨大。

對於這次更新，產業專家王煜全認為，這次GPT-4o生圖技術看似是個小功能，但它卻標誌著在圖片設計領域，創意與技術已經正式解綁，並會迅速形成無門檻的創新生態。

實際上，在OpenAI最初推出生圖功能，業界認為OpenAI只是將DALL-E融入了GPT模型，是一次不痛不癢的小更新。畢竟，早在2023年人們就見證了Midjourney的AI作圖能力，只需要輸入關鍵詞，便可得到一系列AI圖片，從中選出自己心儀的圖片。

相較於Midjourney這次GPT-4o引發業界關注的作圖能力，在於它實現了“邊畫邊改”的能力。GPT-4o摒棄了傳統擴散模型所依賴的“逐步去噪”機制，而是採用了自回歸生成方式，讓用戶擁有了更強的靈活性和可調整性。用戶能夠輕鬆掌控生成結果，還能隨時對生成內容進行細緻調整，無需再像以往那樣生成大量圖片，而後從中費力篩選出符合需求的作品。例如，在中文方面，這一次的GPT-4o可以準確地識別中文，而且不需要輸入關鍵詞，只要輸入文稿，就可以獲得一張資訊準確的圖片。同時，實現持續的細節修訂。比如，給人物換個發色，換雙鞋子，它都可以馬上回應。

對此，不少業內專家認為，4o的更新，似乎已經超過了“替代人工”的臨界點。在今後的幾年裡，設計、作圖將回歸“創造力和鑒賞力”。AI工具不光能讓他們的想像變成現實，還能讓他們的創作效率指數級地躍升。

此外，王煜全也提到，此次GPT-4o展現的能力背後，更多的是OpenAI在大模型“多模態”領域的探索，而“多模態”能力的展現將會是即將發佈的GPT-5 能力展現的主要方向。

在他看來，目前業界基本形成一個共識，“多模態將顯著降低大模型的幻覺”。包括DeepSeek在內的主流大模型，主要是通過輸入文字完成內容輸出。在這樣的情況下，一旦文本錯誤，會導致輸出結果錯誤。用錯誤數據訓練也會造成模型“虛幻”。“多模態”的優勢在於，讓數據的輸入后可以在不同角度進行推理論證，從而保證輸出結果的準確性。

值得一提的是，國內的大模型也已經在這方面展開，目前已知的是，位元組旗下的豆包大模型也推出了SeedEdit，同樣可以實現 " 自然語意修圖 "，使用者只需輸入簡單的自然語言，便可對圖像進行多樣化編輯操作。而且目前豆包的 " 圖像生成 " 功能是完全免費且不存在限制的，這一波甚至能把開會員的錢也給直接省下來。

可以預見的是，隨著 AI 圖像編輯技術的不斷發展，未來手機、電腦都可能會整合這項功能。屆時，無論是對圖像處理一知半解的新手小白，還是深諳此道的專業大咖，都能輕鬆駕馭這一技術，將自己內心對美的獨特感悟，以更加直觀、生動的方式呈現出來。