OpenAI掀起AI生圖熱潮：“吉卜力”動漫風陷版權爭議，實測中文渲染遇瓶頸

更新于：2025-03-29 13:34:29

圖片來源：視覺中國

藍鯨新聞3月29日訊（記者朱俊熹）夢核風格的小貓、“打工人”版的Hello Kitty、一鍵Jellycat……你對這些AI生成的圖片肯定不陌生，它們曾火遍全網，但現在都已經過時了。這幾天佔據海內外各大社交媒體首頁的，是另一類新的AI生圖風格：吉卜力動漫風。

本周早些時候，OpenAI對ChatGPT的圖像生成功能進行了升級，用戶可以通過其多模態大模型GPT-4o來生成和修改圖像。在3月26日的直播中，OpenAI CEO Sam Altman和團隊展示了如何在ChatGPT中把一張自拍照轉換為動漫風格的圖片。觀看者們很快發現，其畫風與日本吉卜力動畫工作室極為相似，並開始在互聯網上自發體驗、傳播。一位使用者甚至將這稱作OpenAI模型的“第一次病毒式傳播”。

圖片來源：Sam Altman X

因湧入的體驗者過多，OpenAI決定推遲向免費用戶開放這一圖像生成工具的時間。Sam Altman在社交平臺X上發帖稱，“我們的GPU快要炸了”。他不僅將頭像換成了吉卜力風格編輯后的個人照，還自嘲道，“為了創造超級智慧努力了十年，前七年半幾乎沒人關心，之後兩年半大家因為各種事討厭我。有一天醒來收到了成百上千條資訊：‘看，我把你做成了一個吉卜力風格的帥小夥’。”

圖片來源：Sam Altman X

AI生成“風格”涉侵權嗎？

然而當AI生成的“吉卜力”圖片迅速充斥互聯網，一個擔憂也隨之而起：這是否會涉及到對吉卜力工作室動漫作品版權的侵犯？更引人關注的是，吉卜力工作室的聯合創辦人、動畫師宮崎駿早在2016年就表達過對AI生成內容的不滿。他在看到一段由AI生成的視頻片段時直言，“我感到極度噁心，絕不會希望把這種技術融入我的作品中。”

OpenAI發言人則表示，ChatGPT拒絕“以個別活躍藝術家的風格進行生成”，但允許生成“更廣泛的工作室風格”。

對於其中可能牽涉的版權爭議，江蘇劍橋頤華律師事務所律師、專利代理師楊衛薪告訴藍鯨新聞，一般情況下“風格”是沒有著作權的，因為它只保護具體的表達，而不保護思想。“但是如果生成的內容和吉卜力裡面的角色或者場景有較高的一致性，那可能就會構成侵權。”

楊衛薪律師補充稱，從GPT-4o在生成吉卜力風格圖像上的表現來看，模型在訓練時必然使用到了吉卜力工作室的作品素材，“不然大模型是沒法理解這種圖片風格並進行相應的生成。”如果按照中國的著作權法來看，AI抓取素材用於訓練並進行內容生成，是一種侵犯複製權、信息網路傳播權的行為，但目前學界和業界都想將這種行為往合理使用的方向推進。

一句話生圖成現實

使用AI生成圖片並不是新鮮事，OpenAI此次在功能上的更新能夠引起現象級傳播，一大原因還是在於其生成圖片的高品質。

據OpenAI介紹，GPT-4o模型具備較強的文本渲染能力。藍鯨新聞記者實測發現，4o不僅可以還原原圖的文字內容，也支持通過自然語言的描述，來調整文字的位置或顏色等細節。但該模型對英文字元的渲染準確度要高於中文字符，在實測過程中會出現將簡體字編輯成繁體字，或生成的中文字元出錯的情況。OpenAI也承認，4o模型在渲染非拉丁語言時可能會遇到困難。

圖片來源：藍鯨新聞

此外，GPT-4o在圖像一致性方面也取得了較大進展。即使經過多輪對話的調整，其生成的圖像在風格、主體外觀等方面也能保持一致。這能夠極大地提升AI生圖在遊戲設計、廣告製作等領域的落地可能。

圖片來源：藍鯨新聞

據OpenAI介紹，此前其推出的AI生圖模型Dall-E是擴散模型，而4o圖像生成是一個自回歸模型。4o系統會按照從左到右、從上到下的順序逐步生成圖像，類似於文字的書寫方式，而不是像擴散模型那樣，一次性生成整個圖像。

AI創企深勢科技的AI演算法負責人柯國霖在社交媒體上分析稱，這體現了用自回歸模型來統一多模態這一方案的優勢。Dall-E是在隱空間中將圖像與語言對齊，在生成圖像時，模型不斷在文字和圖像之間進行相互轉換。但這一過程必然是有損的，圖像的引導能力很弱，生成的隨機性大、難以精細控制。

柯國霖表示，像GPT-4o這類Omni Model（全能模型），能夠將對話中的圖像、文本甚至更多模態統一轉化為一維token序列，直接通過自回歸的方式輸入給模型。這樣就無需再依賴文本作為橋樑，避免了資訊的中途損失。更關鍵的是，模型每次都能保留完整的圖像資訊，因此能夠根據使用者指令，對圖像內容進行更細緻、更可控的調整。

對於更多使用者而言，GPT-4o此次更新帶來的驚喜還體現在使用流程的絲滑度上，讓“一句話生圖”、“用嘴改圖”的可行性直線拉升。相較而言，此前主流的AI生圖工具Stable Diffusion對消費者的專業能力要求較高，需要掌握不同外掛程式及參數的設置。而Midjourney在可控性和一致性方面較弱，不適用於要求高度一致性的任務。

設計師章蕭醇在社交平臺X上直言，GPT-4o的圖像能力直接推翻了之前很多創業公司的產品。“他們花了那麼多時間、人力、投資人的錢去調優的演算法、工作流、模型，直接被一次大模型的更新就取代了。”

GPT-4o模型於去年5月正式推出，主打的就是具備能夠處理文本、音訊和圖像的多模態能力，與當前備受關注的o1等推理模型有所不同。但在近一年的時間內，4o都未向使用者放開其圖像生成功能。

3月28日，GPT-4o再迎部分更新，包括更擅長遵循詳細的指令、提高了解決複雜技術和編碼問題的能力。Sam Altman預告稱，“更多更新即將到來。”

羽毛球再漲價！部分型號漲幅超黃金，甚至有二手球單店銷量超5萬

2025-04-05 23:59:12