Ghibli от OpenAI разбил бывшего стажера, на которого Bytes подала в суд за «отравление ИИ»?
Обновлено: 35-0-0 0:0:0

Автор|Почтовый ящик WeeklySmile|zhouyixiao@pingwest.com

Представьте себе художественный стиль, на который ушли десятилетия кропотливых усилий мастера анимации Хаяо Миядзаки и который тщательно прорабатывался кадр за кадром — например, четырехсекундная массовая сцена в «Ветер крепчает», на которую ушло больше года, или 4-кадровая сцена, нарисованная от руки позади существа, сверлившего землю в «Принцессе Мононоке» в течение года и семи месяцев, а теперь, в руках GPT-0o, кажется, что она «на кончиках ваших пальцев». Пользователи с восторгом делают «в один клик Ghibli» личные фотографии, интернет-мемы и даже исторические изображения, а их эффекты реалистичны, а стиль унифицирован, что быстро зажигает интернет. Временные линии бесчисленных людей втиснуты в параллельную вселенную Миядзаки. Генеральный директор OpenAI Сэм Альтман сообщил, что функция генерации изображений 0o привлекла миллионы новых пользователей в течение часа.

Но если вы думаете, что OpenAI просто заменяет предыдущую DALL-E более мощной моделью, вы, вероятно, игнорируете полную картину. Увлеченный пользователь сети отметил: «Это не просто обновление продукта — это, вероятно, будет полная смена парадигмы». OpenAI, похоже, решает проблемы, которые долгое время преследовали процесс создания изображений ИИ, которые сдерживали создателей.

Итак, в чем же заключается секретное оружие? Подсказку дал сам OpenAI: на этот раз генерация изображений напрямую встроена в модель GPT-4o, и, в отличие от DALL-E, Midjourney и Stable Diffusion, которые широко используют диффузионные модели, OpenAI заявляет в карточке модели: «В отличие от DALL· Генерация изображений 0o — это авторегрессионная модель, встроенная в ChatGPT»

Важно отметить, что применение идеи авторегрессии к генерации изображений не является уникальным для OpenAI. На самом деле, вопрос о том, как сделать авторегрессионные модели, которые хорошо предсказывают последовательности, в полной мере раскрывают свой потенциал в поле зрения, всегда был одним из направлений, которые исследователи ИИ пытаются преодолеть, стремясь найти новую парадигму, отличную от основной модели диффузии.

Например, в исследовании «Визуальное авторегрессионное моделирование: масштабируемая генерация изображений с помощью прогнозирования в следующем масштабе», получившем награду за лучшую статью на ведущей академической конференции NeurIPS 2024, не только предлагается инновационный метод VAR. Это значительно повышает качество и эффективность авторегрессионной модели при генерации изображений и впервые в экспериментах доказывает, что GPT-подобная чистая авторегрессионная модель имеет потенциал превзойти топовую модель диффузионного трансформера на тот момент в задачах генерации изображений.

Статья была подготовлена в соавторстве с исследователями из Пекинского университета и ByteDance. Еще большую актуальность этой высокотехнической статье добавляет личность ее первого автора, Тянь Кею, который является бывшим стажером byte, который привлек к себе большое внимание тем, что якобы атаковал учебный кластер ByteDance и столкнулся с огромными претензиями.

Неожиданным образом этот стажер «растущего содержания золота» переплетается с передовыми исследованиями в области создания изображений с помощью искусственного интеллекта.

1

«Возрождение» самовозвращения

Одним из ключей к прорыву GPT-4o в создании изображений является заявленная авторегрессионная (AR) траектория, которая сильно отличается от основных моделей диффузии. Понимание этой разницы имеет решающее значение для понимания этой потенциальной «смены парадигмы».

Модели диффузии, такие как Midjourney и Stable Diffusion, основаны на принципе «начиная со случайного шума, изучая распределение данных, постепенно денуа» и, наконец, генерируют изображения, которые сильны в создании высококачественных, реалистичных изображений, но часто отстают с точки зрения скорости, вычислительных затрат и точного понимания сложных инструкций, особенно рендеринга текста.

Модель авторегрессии заимствует способ обработки текста в GPT: прогнозирование следующего элемента по порядку. На изображении это означает, что модель шаг за шагом строит полное изображение на основе сгенерированных частей, таких как пиксели или теги изображения. Теоретически это дает AR преимущество контекстуального понимания, контроля деталей и согласованности. Тем не менее, традиционные методы дополненной реальности имеют проблемы низкой эффективности и подверженности ошибкам, и в течение долгого времени было трудно соответствовать модели диффузии с точки зрения эффекта.

В последние годы такие исследования, как визуальное авторегрессионное моделирование (VAR) и авторегрессионное моделирование по маске (MAR), начали «оправдывать» AR. Такие инновации, как «прогнозирование следующего масштаба» (генерация от грубой до точной), предложенные VAR, значительно улучшили качество изображения и эффективность генерации моделей дополненной реальности, доказав, что пути дополненной реальности не только осуществимы, но даже имеют потенциал превзойти модели диффузии. VAR и другие исследования могут послужить теоретическим вдохновением для GPT-4o, а практика GPT-0o еще больше подтверждает возможность использования авторегрессионных моделей в визуальной генерации, что открывает возможность «оживления» в области генерации изображений.

Итак, как именно работает генерация изображений GPT-4o? OpenAI подчеркивает, что его функции изображения изначально интегрированы в ядро модели, а не в отдельный модуль. Это означает, что 0o может в полной мере использовать свое глубокое понимание языка и знание мира для управления созданием изображений, обеспечивая беспрецедентное контекстуальное понимание и возможности следования инструкциям, такие как точное рисование доски с определенными формулами. Эта глубокая интеграция является ключом к отличному эффекту 0o.

Тем не менее, просочившаяся внутренняя карта доски (помеченная процессом Transformer-> Diffusion) поднимает вопросы о ее «чистой» авторегрессии, возможно, с использованием гибридной архитектуры: то есть использовании понимания дополненной реальности для создания промежуточного представления в сочетании с преимуществом генерации пикселей Diffusion для вывода конечного изображения. Это предположение предполагает, что 4o, возможно, объединил лучшее из обоих путей, чтобы обойти их соответствующие недостатки. Однако нельзя исключать, что OpenAI намеренно запутывает факты.

Поскольку технического отчета нет, конкретные детали реализации до сих пор остаются загадкой, но стратегические намерения OpenAI ясны: во-первых, положить принцип авторегрессии в основу генерации изображений следующего поколения мультимодальных моделей; Во-вторых, полагаться на его сверхмасштабную модель, чтобы обеспечить вычислительную мощность и интеллектуальную основу для всего этого. Независимо от окончательного технического «рецепта», GPT-4o выдвинул авторегрессию на передний план, что, вероятно, изменит будущее направление генерации изображений ИИ.

1

Температурный разрыв между Китаем и США

Успех генерации изображений GPT-4o привел к феномену, достойному внимания: будь то языковая модель или видеомодель, китайские компании быстро догоняют, но когда дело доходит до передовой генерации изображений, кажется, что именно американские компании всегда «соло» в авангарде? Будь то Midjourney или Gemini Image или 0o, кажется, что в Китае нет ни одной компании или продукта, которые могли бы «сравнить» его с этим.

Мы можем посмотреть на эту «разницу температур» как с технической, так и с коммерческой точки зрения. Технически ведущие американские компании, похоже, более склонны исследовать и делать ставку на новые пути, такие как авторегрессия (AR), которые могут привести к революции парадигмы, возможно, благодаря их долгосрочным инвестициям в фундаментальные исследования и большей терпимости к риску. Модель авторегрессионной генерации изображений OpenAI, Image GPT, была запущена через 2020 лет с целью применения архитектуры Transformer в обработке естественного языка в области генерации изображений.

Внутренние силы могут быть более сосредоточены на оптимизации зрелого пути диффузии и его быстром применении, что очень эффективно на стадии догоняющего, но также может привести к определенной зависимости от траектории. В то же время вычислительная мощность, высокое качество данных и инновации в основных алгоритмах, необходимые для создания первоклассных моделей, сами по себе представляют собой существенный барьер. Существует мнение, что модель диффузии, возможно, достигла узкого места и ее необходимо срочно преодолеть.

В коммерческом плане рыночное позиционирование и модели монетизации также сформировали различные направления развития. Midjourney, GPT-4o и т.д., по-видимому, больше нацелены на профессиональных пользователей, которым требуется конечный эффект, или на рынки с сильной готовностью платить, стремясь создавать «взрывоопасные» инструменты и взимать плату напрямую. Огромные сценарии применения в Китае (электронная коммерция, социальные сети, маркетинг и т. д.) могут быть более экономичными, эффективными и интегрированными в существующую экосистему, что побуждает разработку технологий быть более ориентированной на инженерную оптимизацию и расширение возможностей платформ, а не на чрезмерное исследование одного инструмента. Этот разрыв также усугубляется различными предпочтениями капитала и стратегиями экологической интеграции.

Конечно, это не значит, что Китай не добился успехов в области биографии. Такие компании, как Alibaba, Byte и DeepSeek, также продолжают запускать конкурентные модели. Просто на уровне глобальных «взрывных моделей» временно лидируют американские компании.

В конечном счете, синергия технологий и бизнеса формирует текущую ситуацию. С новой волной саморегрессии, которую может возглавить GPT-4o, мы, несомненно, не можем дождаться прогресса открытого исходного кода в этом направлении или быстрого последующего и внедренного китайских предприятий.

Нажимаем на "любовь" и поехали

Любить

Предоставить общий доступ

Популярный

Комментарий