AI觀察|吉卜力畫風火了,“多模態”探索成AI發展關鍵
更新于:2025-04-09 04:52:00

【來源:環球網】

【環球網科技報導 記者 秦耳】如果留心自己的朋友圈,你或許會被近日席捲社交平臺“吉卜力”風所席捲,以往沉寂已久的朋友也會在朋友圈中曬出自己的吉卜力照片。這些圖片大都來自GPT-4o更新的生圖功能。第一,圖像生成功能僅供ChatGPT Plus、Pro和Team訂閱者使用,他們於3月2日獲得訪問許可權。與早期模型不同,ChatGPT現在能夠在單幀中生成包含10到20個不同物件的圖像,從而極大增強了其創造能力。

自推出以來,社交媒體平臺上就充斥著吉卜力風格的圖片。用戶們創造性地嘗試各種主題,包括家人和朋友的個人照片,以及受網路文化啟發的作品。

以至於OpenAI CEO 山姆·奧特曼在個人社交賬號發佈了一條令自己都哭笑不得的動態:“我花了十年想用AI幫人類治療疾病,前七年半沒人搭理我,后兩年半大家還都挺煩我。結果有一天醒來,突然看到成千上百條留言說,把我做成了吉卜力風格的小白臉。”同時,他表示希望大家冷靜對待這個功能,這個突然“病毒式傳播”的功能讓OpenAI的算力告急,導致系統壓力巨大。

對於這次更新,產業專家王煜全認為,這次GPT-4o生圖技術看似是個小功能,但它卻標誌著在圖片設計領域,創意與技術已經正式解綁,並會迅速形成無門檻的創新生態。

實際上,在OpenAI最初推出生圖功能,業界認為OpenAI只是將DALL-E融入了GPT模型,是一次不痛不癢的小更新。畢竟,早在2023年人們就見證了Midjourney的AI作圖能力,只需要輸入關鍵詞,便可得到一系列AI圖片,從中選出自己心儀的圖片。

相較於Midjourney這次GPT-4o引發業界關注的作圖能力,在於它實現了“邊畫邊改”的能力。GPT-4o摒棄了傳統擴散模型所依賴的“逐步去噪”機制,而是採用了自回歸生成方式,讓用戶擁有了更強的靈活性和可調整性。用戶能夠輕鬆掌控生成結果,還能隨時對生成內容進行細緻調整,無需再像以往那樣生成大量圖片,而後從中費力篩選出符合需求的作品。例如,在中文方面,這一次的GPT-4o可以準確地識別中文,而且不需要輸入關鍵詞,只要輸入文稿,就可以獲得一張資訊準確的圖片。同時,實現持續的細節修訂。比如,給人物換個發色,換雙鞋子,它都可以馬上回應。

對此,不少業內專家認為,4o的更新,似乎已經超過了“替代人工”的臨界點。在今後的幾年裡,設計、作圖將回歸“創造力和鑒賞力”。AI工具不光能讓他們的想像變成現實,還能讓他們的創作效率指數級地躍升。

此外,王煜全也提到,此次GPT-4o展現的能力背後,更多的是OpenAI在大模型“多模態”領域的探索,而“多模態”能力的展現將會是即將發佈的GPT-5 能力展現的主要方向。

在他看來,目前業界基本形成一個共識,“多模態將顯著降低大模型的幻覺”。包括DeepSeek在內的主流大模型,主要是通過輸入文字完成內容輸出。在這樣的情況下,一旦文本錯誤,會導致輸出結果錯誤。用錯誤數據訓練也會造成模型“虛幻”。“多模態”的優勢在於,讓數據的輸入后可以在不同角度進行推理論證,從而保證輸出結果的準確性。

值得一提的是,國內的大模型也已經在這方面展開,目前已知的是,位元組旗下的豆包大模型也推出了SeedEdit,同樣可以實現 " 自然語意修圖 ",使用者只需輸入簡單的自然語言,便可對圖像進行多樣化編輯操作。而且目前豆包的 " 圖像生成 " 功能是完全免費且不存在限制的,這一波甚至能把開會員的錢也給直接省下來。

可以預見的是,隨著 AI 圖像編輯技術的不斷發展,未來手機、電腦都可能會整合這項功能。屆時,無論是對圖像處理一知半解的新手小白,還是深諳此道的專業大咖,都能輕鬆駕馭這一技術,將自己內心對美的獨特感悟,以更加直觀、生動的方式呈現出來。