Ghibli di OpenAI, ha fatto schiantare un ex stagista che è stato citato in giudizio da Bytes per "avvelenamento dell'intelligenza artificiale"?
Aggiornato il: 35-0-0 0:0:0

Autore|Casella di posta WeeklySmile|zhouyixiao@pingwest.com

想像一下,耗費動畫大師宮崎駿數十年心血、一幀一畫精雕細琢的藝術風格——比如《起風了》中耗時一年多的四秒人群場景,或是《幽靈公主》里那個生物鑽地鏡頭背後一年零七個月的 5300 幀手繪,如今,在GPT-4o手中,似乎變得“唾手可得”。用戶們興奮地將個人照片、網路梗圖甚至歷史影像紛紛“一鍵吉卜力化”,其效果之逼真、風格之統一,迅速點燃了網路。無數人的時間線都被塞入了宮崎駿的平行宇宙。OpenAI CEO Sam Altman透露,4o的圖像生成功能在一小時內就吸引了百萬新使用者。

Ma se pensi che sia solo OpenAI a sostituire il precedente DALL-E con un modello più potente, probabilmente stai ignorando il quadro completo. Un appassionato netizen ha osservato: "Questo non è solo un aggiornamento del prodotto, è probabile che si tratti di un completo cambiamento di paradigma". OpenAI sembra risolvere i problemi che hanno a lungo afflitto il processo di generazione di immagini AI che hanno frenato i creatori.

Allora, qual è l'arma segreta? La stessa OpenAI ha fornito un indizio: questa volta la generazione dell'immagine è direttamente integrata nel modello GPT-4o e, a differenza di DALL-E, Midjourney e Stable Diffusion, che utilizzano ampiamente modelli di diffusione, OpenAI afferma nella scheda del modello: "A differenza di DALL· La generazione di immagini 0o è un modello autoregressivo incorporato nativamente in ChatGPT"

È importante notare che l'applicazione dell'idea di autoregressione alla generazione di immagini non è esclusiva di OpenAI. Infatti, come fare in modo che i modelli autoregressivi che siano bravi nella predizione delle sequenze diano pieno gioco al loro potenziale nel campo della visione è sempre stata una delle direzioni che i ricercatori di IA stanno cercando di superare, con l'obiettivo di trovare un nuovo paradigma che sia diverso dal modello di diffusione mainstream.

Ad esempio, la ricerca "Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction", che ha vinto il Best Paper Award della conferenza accademica NeurIPS 2024, non solo propone un metodo VAR innovativo, ma Migliora significativamente la qualità e l'efficienza del modello autoregressivo nella generazione di immagini e dimostra per la prima volta in esperimenti che il modello autoregressivo puro simile a GPT ha il potenziale per superare il modello di diffusione più alto del trasformatore in quel momento nelle attività di generazione di immagini.

Il documento è stato co-scritto da ricercatori dell'Università di Pechino e di ByteDance. Ad aggiungere ulteriore attualità al documento altamente tecnico è l'identità del suo primo autore, Tian Keyu, che è l'ex stagista di byte che ha attirato molta attenzione per aver presumibilmente attaccato il cluster di formazione di ByteDance e aver affrontato enormi rivendicazioni.

In un modo inaspettato, questo stagista di "contenuto d'oro in aumento" si intreccia con l'esplorazione all'avanguardia della generazione di immagini AI.

1

La "rinascita" dell'auto-ritorno

Una delle chiavi della svolta di GPT-4o nella generazione di immagini è il suo presunto approccio autoregressivo (AR), che è molto diverso dai modelli di diffusione tradizionali. Comprendere questa differenza è fondamentale per cogliere questo potenziale "cambiamento di paradigma".

I modelli di diffusione, come Midjourney e Stable Diffusion, si basano sul principio di partire dal rumore casuale, apprendere la distribuzione dei dati per denois gradualmente e infine generare immagini, che sono forti nel generare immagini realistiche e di alta qualità, ma spesso mancano di velocità, costi computazionali e comprensione accurata di istruzioni complesse, in particolare il rendering del testo.

Il modello autoregressivo prende in prestito il modo in cui GPT elabora il testo: prevedere l'elemento successivo in ordine. Sull'immagine, ciò significa che il modello costruisce un'immagine completa passo dopo passo in base alle parti che sono state generate, come pixel o tag immagine. In teoria, questo dà all'AR il vantaggio della comprensione contestuale, del controllo dei dettagli e della coerenza. Tuttavia, i metodi AR tradizionali presentano problemi di bassa efficienza e soggetti a errori, ed è stato difficile abbinare il modello di diffusione in termini di effetto per molto tempo.

Negli ultimi anni, ricerche come il Visual Autoregressive Modeling (VAR) e il Mask Autoregressive Modeling (MAR) hanno iniziato a "giustificare" l'AR. Innovazioni come la "next-scale prediction" (generazione da grossolana a fine) proposte dal VAR hanno migliorato significativamente la qualità dell'immagine e l'efficienza di generazione dei modelli AR, dimostrando che i percorsi AR non solo sono fattibili, ma hanno anche il potenziale per superare i modelli di diffusione. Il VAR e altri studi possono fornire ispirazione teorica per GPT-4o e la pratica di GPT-0o verifica ulteriormente la fattibilità di modelli autoregressivi nella generazione visiva, facendo sì che l'AR inauguri la possibilità di "rinascita" nel campo della generazione di immagini.

Quindi, come funziona esattamente la generazione di immagini di GPT-4o? OpenAI sottolinea che le sue funzioni di immagine sono integrate in modo nativo nel nucleo del modello, piuttosto che un modulo autonomo. Ciò significa che 0o può sfruttare appieno la sua potente comprensione del linguaggio e la conoscenza del mondo per guidare la generazione di immagini, consentendo una comprensione contestuale senza precedenti e capacità di seguire le istruzioni, come disegnare accuratamente una lavagna con formule specifiche. Questa profonda integrazione è la chiave dell'eccellente effetto 0o.

Tuttavia, una mappa della lavagna interna trapelata (annotata con il processo Transformer-> Diffusion) solleva dubbi sulla sua autoregressione "pura", possibilmente utilizzando un'architettura ibrida: cioè, utilizzando la comprensione dell'AR per generare una rappresentazione intermedia, combinata con il vantaggio della generazione di pixel di Diffusion per produrre l'immagine finale. Questa speculazione suggerisce che 4o potrebbe aver combinato il meglio di entrambe le rotte per aggirare le rispettive carenze. Tuttavia, non si può escludere che OpenAI stia deliberatamente offuscando i fatti.

Poiché non esiste una relazione tecnica, i dettagli specifici dell'implementazione sono ancora un mistero, ma le intenzioni strategiche di OpenAI sono chiare: in primo luogo, mettere il principio autoregressivo al centro della generazione di immagini della prossima generazione di modelli multimodali; Il secondo è quello di affidarsi al suo modello su scala ultra-larga per fornire potenza di calcolo e intelligenza di base per tutto questo. Indipendentemente dalla "ricetta" tecnica finale, GPT-4o ha spinto in primo piano l'autoregressione, che probabilmente cambierà la direzione futura della generazione di immagini AI.

1

Il divario di temperatura tra Cina e Stati Uniti

Il successo della generazione di immagini GPT-4o ha portato a un fenomeno degno di attenzione: che si tratti di un modello linguistico o di un modello video, le aziende cinesi stanno recuperando terreno rapidamente, ma quando si tratta di generazione di immagini all'avanguardia, sembra che siano sempre le aziende americane a "fare da sole" in prima linea? Che si tratti di Midjourney a Gemini Image a 0o, non sembra esserci un'azienda o un prodotto in Cina che possa fare un "benchmark" con esso.

Possiamo guardare a questa "differenza di temperatura" sia dal punto di vista tecnico che commerciale. Tecnicamente, le migliori aziende statunitensi sembrano essere più inclini a esplorare e scommettere su nuovi percorsi come l'autoregressione (AR) che potrebbe portare a una rivoluzione di paradigma, magari grazie ai loro investimenti a lungo termine nella ricerca di base e a una maggiore tolleranza al rischio. Il modello di generazione autoregressiva di immagini di OpenAI, Image GPT, è stato lanciato in 2020 anni, con l'obiettivo di applicare l'architettura Transformer nell'elaborazione del linguaggio naturale al campo della generazione di immagini.

Le forze interne possono essere più concentrate sull'ottimizzazione del percorso di diffusione maturo e sulla sua rapida applicazione, il che è molto efficace nella fase di recupero, ma può anche portare a una certa dipendenza dal percorso. Allo stesso tempo, la potenza di calcolo, i dati di alta qualità e l'innovazione degli algoritmi di base necessari per modelli di prim'ordine costituiscono di per sé un ostacolo significativo. Si ritiene che il modello di diffusione possa aver raggiunto un collo di bottiglia e debba essere superato con urgenza.

Anche dal punto di vista commerciale, il posizionamento di mercato e i modelli di monetizzazione hanno plasmato diverse direzioni di sviluppo. Midjourney, GPT-4o, ecc., sembrano essere più rivolti agli utenti professionali che richiedono l'effetto massimo o ai mercati con una forte disponibilità a pagare, perseguendo la creazione di strumenti "esplosivi" e la ricarica diretta. Gli enormi scenari applicativi della Cina (e-commerce, social networking, marketing, ecc.) potrebbero essere più convenienti, efficienti e integrati con l'ecosistema esistente, spingendo lo sviluppo tecnologico a essere più orientato verso l'ottimizzazione ingegneristica e il potenziamento della piattaforma, piuttosto che l'esplorazione estrema di un singolo strumento. Questo divario è anche esacerbato dalle diverse preferenze di capitale e dalle strategie di integrazione ecologica.

Naturalmente, questo non vuol dire che la Cina non abbia ottenuto risultati nel campo della biografia. Anche aziende come Alibaba, Byte e DeepSeek continuano a lanciare modelli competitivi. È solo che a livello di "modelli esplosivi" globali, le aziende americane sono temporaneamente in testa.

In fin dei conti, la sinergia tra tecnologia e business sta plasmando il panorama attuale. Con la nuova ondata di auto-regressione che GPT-4o potrebbe portare, senza dubbio non vediamo l'ora di vedere i progressi dell'open source in questa direzione, o il rapido follow-up e l'implementazione delle imprese cinesi.

Clicca su "amore" e si parte

Come

Condividi

Popolare

Commento