GPT-4o文生圖模型展現驚人能力,從精準細節到複雜融合,AI生成圖像的效率與品質正重新定義創意邊界。本文通過多場景實測,揭示GPT-4o如何以非自回歸架構顛覆傳統設計流程。
前天,寫了一篇關於 ChatGPT 文生圖功能的文章。
發到知乎後,一位 2021年的年度新知答主 提出了質疑,認為我使用的可能不是最新的模型,因為新舊版本差距很大。
他指出,最新版文生圖能力很強,而我展示的結果提示詞理解差,生成的文字也錯誤很多。
他舉例說,像提示詞「兩個人相互推對方」這種簡單概念,真正最新版模型應該能準確表現。他還建議我檢查是否使用了新模型,並給了我一個連結,稱那是最新版的介面。
他還分享了一個驗證方法:
輸入100+個英文單詞,如果文字全亂就是其他模型(如DALL·E),如果只錯一兩個字母才是最新版的 ChatGPT。
他還曬出了兩次按我的提示詞生成的結果,質疑不能都用“隨機性”來解釋。被他這麼一說,我懷疑自己用錯了模型,我之前用的ChatGPT用戶端,拿它生成的來比,效果的確有有差異,於是,決定重新試一下。
首先,我用了這位新知答主給我的提示詞,如下:
Alright, here’s a shorter version:12 flowers in a 4×3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom
ylang-ylang, osmanthus, yellow champaca; tuberose, gardenia, jasmine; carnation, peony, pink hyacinth; blue iris, violet, wisteria. Photo taken on a sunny afternoon
英文原意比較長,翻譯成縮減的中文是:
從正上方俯拍的 12 種花,呈四行三列擺放。第一行有依蘭、桂花和黃緬梔子;第二行有晚香玉、梔子花和茉莉;
第三行有康乃馨、牡丹和粉色風信子;第四行有藍鳶尾、紫羅蘭和紫藤。所有的花都放在一個帶玻璃底的木質托盤上,玻璃上有一層透明的動物脂肪。照片拍攝於一個陽光明媚的下午,托盤被陽光完全照亮。
ChatGPT 很快給出了答案。這次生成與以往不同的是,它補充了一句話:根據你的描述,這是由 DALL·E 創建的。DALL·E 是 OpenAI 的圖像生成模型。
看來,不僅我遇到過前天提到的模型混淆問題,估計國外友人也遇到過類似情況。
從這裡可以得出一個結論:ChatGPT 官方提到的免費試用最新的非自回歸模型(Non-autoregressive models)似乎並不支援,或者說做了一定限制。
於是,我直接把問題拋給了 ChatGPT:“如何運用最新的文生圖模型?”它給出了三種答案:
第一種是直接使用 ChatGPT 內置的圖像生成功能,直接輸入詳細的描述,它會用最新的模型生成圖像。你可以優化提示詞(Prompt),比如:
第二種是使用 API,你可以進行批量生成或將其集中到作品中;第三種則是純介紹,它提到新的文生圖模型做了多模態結合,生成帶有故事性的連續圖像,用 AI 先生成草圖,再細化成精美插畫等。
不想太多,我直接按照它的要求,把任務交給了 Kimi,讓 Kimi 幫我生成一個提示詞:
在昏暗的復古書房裡,一盞檯燈散發著柔和的暖光,照亮了一張古老的木質書桌。書桌上散落著幾本泛黃的書籍和一支羽毛筆,旁邊是一杯冒著熱氣的紅茶。畫面採用油畫風格,營造出寧靜而懷舊的氛圍,彷彿時間在這裡靜止。
ChatGPT生成的圖片如下,但是,它依然還是那句話,這是由 DALL·E 生成的圖像,展現了你描述的復古書房氛圍;很快,ChatGPT 將推出新的圖像生成模型,帶來更好的細節和風格控制。
所以,結論是:ChatGPT模型是無法使用最新的文生圖模型的。怎麼辦?為了驗證準確度,好久沒有給ChatGPT充值的我,索性再來了一個月會員。
搞定后,切換到ChatGPT 4o對話介面,輸入提示詞:
在一片寧靜的海邊小鎮,夕陽的餘暉灑在古老的燈塔上,燈塔的影子拉得很長。遠處的海面上,幾艘小船在金色的波光中緩緩航行,天空中飄著幾朵粉色的雲。畫面採用水彩畫風格,色彩柔和而溫暖,營造出一種寧靜而夢幻的氛圍。
回應速度有點慢,不過,生成的圖片的確有意境:
所以,必須ChatGPT 4o才可以用,GPT還是老版本的DALL·E模型。隨後,我又給它了一個卡通人物的提示詞:
一個活潑可愛的卡通小貓,有著大大的藍色眼睛和柔軟的粉色耳朵,身上穿著一件紅色的小背帶褲,腳上蹬著一雙黃色的小靴子。
它正站在一個充滿魔法的森林裡,周圍是五顏六色的蘑菇和閃爍的螢火蟲。畫面採用卡通風格,色彩鮮豔明亮,營造出一種奇幻又歡樂的氛圍。畫面比例為4:3。
我很好奇它能生成什麼樣的畫面。你覺得怎麼樣呢?
我確實不太好評價,只能說這張圖風格可愛、充滿童趣,色彩溫馨。如果用在兒童讀物、繪本,或者早教、幼教的互動課件、手工素材裡,肯定是足夠的。
接著我把圖片拿給豆包,讓他深度思考一下,說:你評價一下效果怎麼樣?我用的是ChatGPT 4o的最新文生圖模型。
豆包說:
這幅圖還挺不錯。小貓的表情和衣服細節畫得挺生動,蘑菇和螢火蟲也很有感覺。暖色調的小貓配上冷色的夜景,色彩搭配和諧,營造出一種夢幻又可愛的氛圍。
小貓在畫面中間,構圖看著很舒服,主題也很突出。畫面整體品質挺高,能用到不少地方,這模型生成的效果挺好。
但是,問題來了,測試文生圖也看不出它的厲害之處,試試它兩張圖的融合能力怎麼樣?
我從百度上隨機下載了兩個水杯的圖片,這兩個水杯都處於真實的場景中,且每個水杯都有手拿著。我想看看它是否能把手摳掉,把兩個杯子放在同一個平面上。
然後給到 Kimi,讓 Kimi 幫我寫個提示詞:
請將兩張水杯圖片中的手部部分去除,僅保留水杯本身,確保水杯的細節清晰完整。背景保持簡潔,以便用於電商海報設計。水杯的光影和质感需要保留,確保整體畫面自然且具有吸引力。
第一次它好像卡住了,跟我說:抱歉,我處理不了你的要求,要不你再試試?
估計是用的人太多了。我重新開個視窗,這回它很快就有反應了。問題是,第一張照片處理得挺乾淨,但第二張直接被忽略了。
這下我可不幹了,直接把要求說得清清楚楚,一共四點:
把兩隻手都去掉,只留下水杯;水杯的細節、質感和光影得保留好,看著得自然;背景要簡單乾淨,突出水杯;兩個水杯放在一起,比例要協調,畫面得好看。還特別提醒它,尺寸要4:3的。
結果它花了大概40秒,就搞定了。看到結果時,真的只能驚歎:“這也太厲害了”,設計師要下崗了。
你覺得怎麼樣?速度、效率遠比人工摳圖搞的快。
我又試了試Chat GPT 4o新出的知識圖功能,官方吹的吹得神乎其神,說有了這功能,AI生成圖片能把現實世界里的知識用起來,更懂使用者想啥,做出來的圖也更靠譜、更合乎常理。
簡單說:AI畫畫會琢磨現實里的那些細節,比如地方在哪兒、啥文化背景,還有物理規律那些。
這次,讓deepseek來,我說,你幫我寫一個帶因果邏輯的文生圖的提示詞。有一個細節就是圖片比例依然是4:3。這是它隨機給到的:
內容是一個陽光明媚的下午,一個小男孩坐在公園的長椅上,手裡拿著一個霜淇淋,臉上露出開心的笑容。
因為他剛在遊樂場玩得很開心,現在正享受著美味的霜淇淋。畫面採用溫馨的色調,背景是綠樹成蔭的公園,遠處有幾個小朋友在玩耍。圖片比例為4:3,整體風格清新自然。
額,這看不出什麼因果邏輯。怎麼辦?重新來過。索性直接把「定律」加在圖中間。這是deepseek給我的兩個提示詞:
一個是槓桿定律:生成一張圖,一個小孩在蹺蹺板上,通過槓桿原理把一個重物抬起來。小孩用力往下壓,重物被抬高,體現槓桿原理。背景簡單,比例4:3。
如上圖。這看著像嗎?的確很槓桿。給豆包后,它說:
“這圖是說,有個小孩在壓蹺蹺板一頭,想把另一頭的大重物撬起來。就像玩蹺蹺板,坐一頭能把另一頭的人翹起來,利用這個方法,不用費老不用費老大勁就能把重東西抬起來,是一種省力的小竅門。”
的確有點強。不過興許有些簡單,換一個:就拿「相對論的時間膨脹效應」來測試。
提示詞:
生成一張圖,展示兩個人:Alice 在地球上,Bob 在高速飛行的宇宙飛船裡。因為相對論的時間膨脹效應,Bob 看起來比 Alice 年輕。地球上 Alice 在慢慢變老,而飛船里的 Bob 幾乎沒變。背景簡單,比例4:3。
你能看得出來嗎?
反正我能看得懂。不過,第一次生成時,Alice的名字被放在了腳下面,看起來有點奇怪。經過二次對話微調後,成功地把名字放到了正確的位置。
我認為還能在進化,比如:指定人物的性別等等。
除了文生圖、圖片與圖片合成、以及生成理解物理世界規律的圖以外,還有沒有其他玩法呢?
試試風格轉換。比如:將一張人物照片轉換為動漫風格,或者將一張圖片的風格與另一張圖片的內容融合,這種技術在藝術創作和設計時非常受用。
問題是怎麼轉換呢?我現在有一張個人形象照,把問題甩給DeepSeek,讓它幫我想想。
DeepSeek說:如果你想測試OpenAI的ChatGPT文生圖模型的能力,可以出一個稍微複雜一點但又具體明確的問題,這樣既能考驗模型的理解能力,又能測試它的生成能力。
比如:我有一張個人形象照,我想把它變成動漫風格。希望你能幫我把照片裡的我變成一個動漫角色,頭髮換成深藍色的,整體風格有點賽博朋克那種酷酷的感覺。圖片比例是4:3就行。
不管了,一股腦甩給ChatGPT 4o來處理。這好像有點翻車了。不過,可能我要求太高了。
的確有點抽象,你怎麼看?
不管怎麼說,非自回歸模型(Non-autoregressive models)的進化速度確實很快,它改變了核心架構。
這個架構會先理解整個圖的結構和細節,有點像學生先聽完老師講完題目,把整張畫的輪廓勾勒出來,然後再一點點填充細節。
國內很多產品也在用這種能力了,希望能抓緊時間趕上並超越它。
本文由人人都是產品經理作者【王智遠】,微信公眾號:【王智遠】,原創/授權 發佈於人人都是產品經理,未經許可,禁止轉載。
題圖來自Unsplash,基於 CC0 協定。