被誤導兩天，GPT-4o文生圖模型強到可怕

人人都是產品經理 gpt 模型马斯克开源文生混元 dit 微软 mini

更新于：2025-03-31 18:39:08

GPT-4o文生圖模型展現驚人能力，從精準細節到複雜融合，AI生成圖像的效率與品質正重新定義創意邊界。本文通過多場景實測，揭示GPT-4o如何以非自回歸架構顛覆傳統設計流程。

前天，寫了一篇關於 ChatGPT 文生圖功能的文章。

發到知乎後，一位 2021年的年度新知答主提出了質疑，認為我使用的可能不是最新的模型，因為新舊版本差距很大。

他指出，最新版文生圖能力很強，而我展示的結果提示詞理解差，生成的文字也錯誤很多。

他舉例說，像提示詞「兩個人相互推對方」這種簡單概念，真正最新版模型應該能準確表現。他還建議我檢查是否使用了新模型，並給了我一個連結，稱那是最新版的介面。

他還分享了一個驗證方法：

輸入100+個英文單詞，如果文字全亂就是其他模型（如DALL·E），如果只錯一兩個字母才是最新版的 ChatGPT。

他還曬出了兩次按我的提示詞生成的結果，質疑不能都用“隨機性”來解釋。被他這麼一說，我懷疑自己用錯了模型，我之前用的ChatGPT用戶端，拿它生成的來比，效果的確有有差異，於是，決定重新試一下。

首先，我用了這位新知答主給我的提示詞，如下：

Alright, here’s a shorter version:12 flowers in a 4×3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom
ylang-ylang, osmanthus, yellow champaca; tuberose, gardenia, jasmine; carnation, peony, pink hyacinth; blue iris, violet, wisteria. Photo taken on a sunny afternoon

英文原意比較長，翻譯成縮減的中文是：

從正上方俯拍的 12 種花，呈四行三列擺放。第一行有依蘭、桂花和黃緬梔子；第二行有晚香玉、梔子花和茉莉；
第三行有康乃馨、牡丹和粉色風信子；第四行有藍鳶尾、紫羅蘭和紫藤。所有的花都放在一個帶玻璃底的木質托盤上，玻璃上有一層透明的動物脂肪。照片拍攝於一個陽光明媚的下午，托盤被陽光完全照亮。

ChatGPT 很快給出了答案。這次生成與以往不同的是，它補充了一句話：根據你的描述，這是由 DALL·E 創建的。DALL·E 是 OpenAI 的圖像生成模型。

看來，不僅我遇到過前天提到的模型混淆問題，估計國外友人也遇到過類似情況。

從這裡可以得出一個結論：ChatGPT 官方提到的免費試用最新的非自回歸模型（Non-autoregressive models）似乎並不支援，或者說做了一定限制。

於是，我直接把問題拋給了 ChatGPT：“如何運用最新的文生圖模型？”它給出了三種答案：

第一種是直接使用 ChatGPT 內置的圖像生成功能，直接輸入詳細的描述，它會用最新的模型生成圖像。你可以優化提示詞（Prompt），比如：

具體描述主體、背景、光照、風格等
指定構圖，比如“俯檢視”“廣角鏡頭”
選擇藝術風格，如“油畫風”“賽博朋克風”

第二種是使用 API，你可以進行批量生成或將其集中到作品中；第三種則是純介紹，它提到新的文生圖模型做了多模態結合，生成帶有故事性的連續圖像，用 AI 先生成草圖，再細化成精美插畫等。

不想太多，我直接按照它的要求，把任務交給了 Kimi，讓 Kimi 幫我生成一個提示詞：

在昏暗的復古書房裡，一盞檯燈散發著柔和的暖光，照亮了一張古老的木質書桌。書桌上散落著幾本泛黃的書籍和一支羽毛筆，旁邊是一杯冒著熱氣的紅茶。畫面採用油畫風格，營造出寧靜而懷舊的氛圍，彷彿時間在這裡靜止。

ChatGPT生成的圖片如下，但是，它依然還是那句話，這是由 DALL·E 生成的圖像，展現了你描述的復古書房氛圍；很快，ChatGPT 將推出新的圖像生成模型，帶來更好的細節和風格控制。

所以，結論是：ChatGPT模型是無法使用最新的文生圖模型的。怎麼辦？為了驗證準確度，好久沒有給ChatGPT充值的我，索性再來了一個月會員。

搞定后，切換到ChatGPT 4o對話介面，輸入提示詞：

在一片寧靜的海邊小鎮，夕陽的餘暉灑在古老的燈塔上，燈塔的影子拉得很長。遠處的海面上，幾艘小船在金色的波光中緩緩航行，天空中飄著幾朵粉色的雲。畫面採用水彩畫風格，色彩柔和而溫暖，營造出一種寧靜而夢幻的氛圍。

回應速度有點慢，不過，生成的圖片的確有意境：

所以，必須ChatGPT 4o才可以用，GPT還是老版本的DALL·E模型。隨後，我又給它了一個卡通人物的提示詞：

一個活潑可愛的卡通小貓，有著大大的藍色眼睛和柔軟的粉色耳朵，身上穿著一件紅色的小背帶褲，腳上蹬著一雙黃色的小靴子。
它正站在一個充滿魔法的森林裡，周圍是五顏六色的蘑菇和閃爍的螢火蟲。畫面採用卡通風格，色彩鮮豔明亮，營造出一種奇幻又歡樂的氛圍。畫面比例為4:3。

我很好奇它能生成什麼樣的畫面。你覺得怎麼樣呢？

我確實不太好評價，只能說這張圖風格可愛、充滿童趣，色彩溫馨。如果用在兒童讀物、繪本，或者早教、幼教的互動課件、手工素材裡，肯定是足夠的。

接著我把圖片拿給豆包，讓他深度思考一下，說：你評價一下效果怎麼樣？我用的是ChatGPT 4o的最新文生圖模型。

豆包說：

這幅圖還挺不錯。小貓的表情和衣服細節畫得挺生動，蘑菇和螢火蟲也很有感覺。暖色調的小貓配上冷色的夜景，色彩搭配和諧，營造出一種夢幻又可愛的氛圍。
小貓在畫面中間，構圖看著很舒服，主題也很突出。畫面整體品質挺高，能用到不少地方，這模型生成的效果挺好。

但是，問題來了，測試文生圖也看不出它的厲害之處，試試它兩張圖的融合能力怎麼樣？

我從百度上隨機下載了兩個水杯的圖片，這兩個水杯都處於真實的場景中，且每個水杯都有手拿著。我想看看它是否能把手摳掉，把兩個杯子放在同一個平面上。

然後給到 Kimi，讓 Kimi 幫我寫個提示詞：

請將兩張水杯圖片中的手部部分去除，僅保留水杯本身，確保水杯的細節清晰完整。背景保持簡潔，以便用於電商海報設計。水杯的光影和质感需要保留，確保整體畫面自然且具有吸引力。

第一次它好像卡住了，跟我說：抱歉，我處理不了你的要求，要不你再試試？

估計是用的人太多了。我重新開個視窗，這回它很快就有反應了。問題是，第一張照片處理得挺乾淨，但第二張直接被忽略了。

這下我可不幹了，直接把要求說得清清楚楚，一共四點：

把兩隻手都去掉，只留下水杯；水杯的細節、質感和光影得保留好，看著得自然；背景要簡單乾淨，突出水杯；兩個水杯放在一起，比例要協調，畫面得好看。還特別提醒它，尺寸要4:3的。

結果它花了大概40秒，就搞定了。看到結果時，真的只能驚歎：“這也太厲害了”，設計師要下崗了。

你覺得怎麼樣？速度、效率遠比人工摳圖搞的快。

我又試了試Chat GPT 4o新出的知識圖功能，官方吹的吹得神乎其神，說有了這功能，AI生成圖片能把現實世界里的知識用起來，更懂使用者想啥，做出來的圖也更靠譜、更合乎常理。

簡單說：AI畫畫會琢磨現實里的那些細節，比如地方在哪兒、啥文化背景，還有物理規律那些。

這次，讓deepseek來，我說，你幫我寫一個帶因果邏輯的文生圖的提示詞。有一個細節就是圖片比例依然是4:3。這是它隨機給到的：

內容是一個陽光明媚的下午，一個小男孩坐在公園的長椅上，手裡拿著一個霜淇淋，臉上露出開心的笑容。
因為他剛在遊樂場玩得很開心，現在正享受著美味的霜淇淋。畫面採用溫馨的色調，背景是綠樹成蔭的公園，遠處有幾個小朋友在玩耍。圖片比例為4:3，整體風格清新自然。

額，這看不出什麼因果邏輯。怎麼辦？重新來過。索性直接把「定律」加在圖中間。這是deepseek給我的兩個提示詞：

一個是槓桿定律：生成一張圖，一個小孩在蹺蹺板上，通過槓桿原理把一個重物抬起來。小孩用力往下壓，重物被抬高，體現槓桿原理。背景簡單，比例4:3。

如上圖。這看著像嗎？的確很槓桿。給豆包后，它說：

“這圖是說，有個小孩在壓蹺蹺板一頭，想把另一頭的大重物撬起來。就像玩蹺蹺板，坐一頭能把另一頭的人翹起來，利用這個方法，不用費老不用費老大勁就能把重東西抬起來，是一種省力的小竅門。”

的確有點強。不過興許有些簡單，換一個：就拿「相對論的時間膨脹效應」來測試。

提示詞：

生成一張圖，展示兩個人：Alice 在地球上，Bob 在高速飛行的宇宙飛船裡。因為相對論的時間膨脹效應，Bob 看起來比 Alice 年輕。地球上 Alice 在慢慢變老，而飛船里的 Bob 幾乎沒變。背景簡單，比例4:3。

你能看得出來嗎？

反正我能看得懂。不過，第一次生成時，Alice的名字被放在了腳下面，看起來有點奇怪。經過二次對話微調後，成功地把名字放到了正確的位置。

我認為還能在進化，比如：指定人物的性別等等。

除了文生圖、圖片與圖片合成、以及生成理解物理世界規律的圖以外，還有沒有其他玩法呢？

試試風格轉換。比如：將一張人物照片轉換為動漫風格，或者將一張圖片的風格與另一張圖片的內容融合，這種技術在藝術創作和設計時非常受用。

問題是怎麼轉換呢？我現在有一張個人形象照，把問題甩給DeepSeek，讓它幫我想想。

DeepSeek說：如果你想測試OpenAI的ChatGPT文生圖模型的能力，可以出一個稍微複雜一點但又具體明確的問題，這樣既能考驗模型的理解能力，又能測試它的生成能力。

比如：我有一張個人形象照，我想把它變成動漫風格。希望你能幫我把照片裡的我變成一個動漫角色，頭髮換成深藍色的，整體風格有點賽博朋克那種酷酷的感覺。圖片比例是4:3就行。

不管了，一股腦甩給ChatGPT 4o來處理。這好像有點翻車了。不過，可能我要求太高了。

的確有點抽象，你怎麼看？

不管怎麼說，非自回歸模型（Non-autoregressive models）的進化速度確實很快，它改變了核心架構。

這個架構會先理解整個圖的結構和細節，有點像學生先聽完老師講完題目，把整張畫的輪廓勾勒出來，然後再一點點填充細節。

國內很多產品也在用這種能力了，希望能抓緊時間趕上並超越它。

本文由人人都是產品經理作者【王智遠】，微信公眾號：【王智遠】，原創/授權發佈於人人都是產品經理，未經許可，禁止轉載。

題圖來自Unsplash，基於 CC0 協定。

蘋果 MacBook 磁吸系統 2.0 專利曝光：防干擾 + 強吸附

2025-04-04 10:32:46

大疆 RC Pro 2 無人機帶屏遙控器曝光，採用 7 寸摺疊收納顯示幕

2025-04-04 18:31:15

蘋果M4款MacBook Pro和Mac mini國行翻新版上架，最高立省 15%

2025-04-06 00:49:57

這十款車徹底改寫汽車歷史，你知道幾個？（1966年-1990年）

2025-04-06 02:12:25

23.8英寸Mac mini顯示器盤點：千元價位4K果粉屏，自帶Type-C口！

2025-04-06 04:43:19

vivo X200 Pro mini：小屏旗艦的極致魅力

2025-04-06 11:14:10

專業移動硬碟丨雷孜（LaCie ）Rugged Mini評測：高速、大容量！

2025-04-06 11:32:30

蘋果 iPhone 17 Air 新機模曝光，直觀展示 5.5 毫米厚度

2025-04-06 12:38:57

8 英寸小屏平板爆火 2025 為何成 “小鋼炮元年”？

2025-04-07 07:57:54

iPhone的20周年，蘋果可能會推出一台“顛覆性”的Pro機型

2025-04-07 18:48:41

5499元！微星新款27英寸電競顯示器官宣：4K/240Hz

2025-04-08 01:18:27

微星預熱 Mini LED 顯示器 MAG 274QPF X30MV：1152 分區背光

2025-04-08 04:45:55

TikTok引流完整攻略：從零到百萬粉絲的私域轉化秘訣

2025-03-25 22:37:38

十年跨界經驗總結：如何找到理想職業？跨行轉型如何破局？

2025-03-25 22:38:32

從產品視角解構：現金流充沛業務為何仍需減員的7層邏輯鏈

2025-03-25 22:38:50

額，被一個年輕的產品同學上了一課…

2025-03-25 22:40:06

大語言模型做產品實測：效果究竟如何？

2025-03-25 22:45:51

為什麼你招聘的產品助理最後都成了擺設

2025-03-25 22:46:16

“糟糕”產研團隊的6個表現及解決方案

2025-03-25 23:10:31

AI大模型技術解析-大模型背後的秘密

2025-03-25 23:11:32

一文搞懂“經營分析”：模型、策略、業財打通

2025-03-25 23:12:45

恰如其分的設計，視而不見的陷阱！

2025-03-25 23:12:53

產品設計實用思考工具8問

2025-03-25 23:12:55

職場決策的智慧：用六頂思考帽破解複雜問題

2025-03-25 23:19:41