Ghibli của OpenAI, đã làm hỏng một cựu thực tập sinh bị Bytes kiện vì "đầu độc AI"?
Cập nhật vào: 35-0-0 0:0:0

Tác giả|Hộp thư WeeklySmile|zhouyixiao@pingwest.com

Hãy tưởng tượng phong cách nghệ thuật đã mất nhiều thập kỷ nỗ lực miệt mài của bậc thầy hoạt hình Hayao Miyazaki và được chế tác tỉ mỉ từng khung hình - chẳng hạn như cảnh đám đông dài bốn giây trong "The Wind Rises" mất hơn một năm, hoặc khung hình 4 được vẽ tay phía sau sinh vật khoan xuống đất trong "Công chúa Mononoke" trong một năm bảy tháng, và bây giờ, trong tay GPT-0o, nó dường như "nằm trong tầm tay bạn". Người dùng hào hứng "Ghibli một cú nhấp chuột" ảnh cá nhân, meme trên Internet và thậm chí cả hình ảnh lịch sử, và hiệu ứng của chúng là chân thực và phong cách thống nhất, điều này nhanh chóng đốt cháy Internet. Dòng thời gian của vô số người được nhồi nhét vào vũ trụ song song của Miyazaki. Giám đốc điều hành OpenAI Sam Altman tiết lộ rằng tính năng tạo hình ảnh của 0o đã thu hút hàng triệu người dùng mới trong vòng một giờ.

Nhưng nếu bạn nghĩ rằng đó chỉ là OpenAI thay thế DALL-E trước đó bằng một mô hình mạnh hơn, có lẽ bạn đang bỏ qua bức tranh toàn cảnh. Một cư dân mạng quan tâm lưu ý: "Đây không chỉ là một bản cập nhật sản phẩm - đây có thể là một sự thay đổi mô hình hoàn toàn." OpenAI dường như đang giải quyết các vấn đề từ lâu đã cản trở quá trình tạo ra hình ảnh AI đã kìm hãm người sáng tạo.

Vậy, vũ khí bí mật là gì? Bản thân OpenAI đã đưa ra một manh mối: lần này việc tạo hình ảnh được tích hợp trực tiếp vào mô hình GPT-4o và không giống như DALL-E, Midjourney và Stable Diffusion, sử dụng rộng rãi các mô hình khuếch tán, OpenAI tuyên bố trong thẻ mô hình: "Không giống như DALL· Tạo hình ảnh 0o là một mô hình tự hồi quy được nhúng nguyên bản trong ChatGPT"

Điều quan trọng cần lưu ý là áp dụng ý tưởng tự hồi quy để tạo hình ảnh không phải là duy nhất đối với OpenAI. Trên thực tế, làm thế nào để tạo ra các mô hình tự hồi quy giỏi trong việc dự đoán trình tự phát huy hết tiềm năng của chúng trong lĩnh vực thị giác luôn là một trong những hướng đi mà các nhà nghiên cứu AI đang cố gắng vượt qua, nhằm tìm ra một mô hình mới khác với mô hình khuếch tán chính thống.

Ví dụ, nghiên cứu "Mô hình tự hồi quy trực quan: Tạo hình ảnh có thể mở rộng thông qua dự đoán quy mô tiếp theo", đã giành được Giải thưởng Bài báo hay nhất của hội nghị học thuật hàng đầu NeurIPS 2024, không chỉ đề xuất một phương pháp VAR sáng tạo, Nó cải thiện đáng kể chất lượng và hiệu quả của mô hình tự hồi quy trong việc tạo hình ảnh và lần đầu tiên chứng minh trong các thí nghiệm rằng mô hình tự hồi quy thuần túy giống như GPT có khả năng vượt qua mô hình Transformer khuếch tán hàng đầu tại thời điểm đó trong các nhiệm vụ tạo hình ảnh.

Bài báo được đồng tác giả bởi các nhà nghiên cứu từ Đại học Bắc Kinh và ByteDance. Thêm tính thời sự cho bài báo có tính kỹ thuật cao là danh tính của tác giả đầu tiên của nó, Tian Keyu, cựu thực tập sinh byte, người đã thu hút nhiều sự chú ý vì bị cáo buộc tấn công cụm đào tạo của ByteDance và phải đối mặt với những tuyên bố khổng lồ.

Theo một cách bất ngờ, thực tập sinh "hàm lượng vàng tăng lên" này gắn liền với việc khám phá tiên tiến về tạo hình ảnh AI.

1

Sự "Phục hưng" của sự tự trở lại

Một trong những chìa khóa cho sự đột phá của GPT-4o trong việc tạo hình ảnh là con đường tự hồi quy (AR) được tuyên bố của nó, rất khác so với các mô hình khuếch tán chính thống. Hiểu được sự khác biệt này là trọng tâm để nắm bắt "sự thay đổi mô hình" tiềm năng này.

Các mô hình khuếch tán, chẳng hạn như Midjourney và Stable Diffusion, dựa trên nguyên tắc bắt đầu từ nhiễu ngẫu nhiên, học sự phân bố của dữ liệu để giảm dần và cuối cùng tạo ra hình ảnh, có khả năng tạo ra hình ảnh chất lượng cao, chân thực, nhưng thường thiếu về tốc độ, chi phí tính toán và hiểu chính xác các hướng dẫn phức tạp, đặc biệt là kết xuất văn bản.

Mô hình tự hồi quy vay mượn từ cách GPT xử lý văn bản: dự đoán phần tử tiếp theo theo thứ tự. Trên hình ảnh, điều này có nghĩa là mô hình xây dựng một hình ảnh hoàn chỉnh từng bước dựa trên các bộ phận đã được tạo ra, chẳng hạn như pixel hoặc thẻ hình ảnh. Về lý thuyết, điều này mang lại cho AR lợi thế về hiểu ngữ cảnh, kiểm soát chi tiết và mạch lạc. Tuy nhiên, các phương pháp AR truyền thống có vấn đề về hiệu quả thấp và dễ xảy ra lỗi, và rất khó để phù hợp với mô hình khuếch tán về hiệu quả trong một thời gian dài.

Trong những năm gần đây, các nghiên cứu như Visual Autoregressive Modeling (VAR) và Mask Autoregressive Modeling (MAR) đã bắt đầu "biện minh" AR. Những đổi mới như "dự đoán quy mô tiếp theo" (tạo từ thô đến mịn) do VAR đề xuất đã cải thiện đáng kể chất lượng hình ảnh và hiệu quả tạo của các mô hình AR, chứng minh rằng các đường dẫn AR không chỉ khả thi mà thậm chí còn có tiềm năng vượt qua các mô hình khuếch tán. VAR và các nghiên cứu khác có thể cung cấp nguồn cảm hứng lý thuyết cho GPT-4o và thực hành GPT-0o xác minh thêm tính khả thi của các mô hình tự hồi quy trong việc tạo hình ảnh, làm cho AR mở ra khả năng "hồi sinh" trong lĩnh vực tạo hình ảnh.

Vì vậy, chính xác thì việc tạo hình ảnh của GPT-4o hoạt động như thế nào? OpenAI nhấn mạnh rằng các chức năng hình ảnh của nó được tích hợp nguyên bản vào cốt lõi của mô hình, thay vì một mô-đun độc lập. Điều này có nghĩa là 0o có thể tận dụng tối đa khả năng hiểu ngôn ngữ mạnh mẽ và kiến thức thế giới để hướng dẫn tạo hình ảnh, cho phép hiểu ngữ cảnh chưa từng có và khả năng tuân theo hướng dẫn - chẳng hạn như vẽ chính xác bảng trắng với các công thức cụ thể. Sự tích hợp sâu này là chìa khóa cho hiệu ứng 0o tuyệt vời.

Tuy nhiên, một bản đồ bảng trắng nội bộ bị rò rỉ (được dán nhãn với quy trình Transformer-> Diffusion) đặt ra câu hỏi về tự hồi quy "thuần túy" của nó, có thể sử dụng kiến trúc lai: nghĩa là, sử dụng sự hiểu biết về AR để tạo ra một đại diện trung gian, kết hợp với lợi thế tạo pixel của Diffusion để xuất ra hình ảnh cuối cùng. Suy đoán này cho thấy rằng 4o có thể đã kết hợp những gì tốt nhất của cả hai tuyến đường để tránh những thiếu sót tương ứng của chúng. Tuy nhiên, không thể loại trừ khả năng OpenAI đang cố tình làm xáo trộn sự thật.

Vì không có báo cáo kỹ thuật nên các chi tiết triển khai cụ thể vẫn còn là một bí ẩn, nhưng ý định chiến lược của OpenAI rất rõ ràng: thứ nhất, đặt nguyên tắc tự hồi quy làm cốt lõi của việc tạo hình ảnh của thế hệ tiếp theo của các mô hình đa phương thức; Thứ hai là dựa vào mô hình quy mô cực lớn của nó để cung cấp sức mạnh tính toán và nền tảng thông minh cho tất cả những điều này. Bất kể "công thức" kỹ thuật cuối cùng là gì, GPT-4o đã đẩy tính năng tự hồi quy lên hàng đầu, điều này có khả năng thay đổi hướng tạo hình ảnh AI trong tương lai.

1

Khoảng cách nhiệt độ giữa Trung Quốc và Hoa Kỳ

Thành công của việc tạo hình ảnh GPT-4o đã dẫn đến một hiện tượng đáng được quan tâm: dù là mô hình ngôn ngữ hay mô hình video, các công ty Trung Quốc đang bắt kịp nhanh chóng, nhưng khi nói đến việc tạo hình ảnh tiên tiến, dường như luôn là các công ty Mỹ đang "solo" đi đầu? Cho dù đó là từ Midjourney đến Gemini Image đến 0o, dường như không có công ty hoặc sản phẩm nào ở Trung Quốc có thể "chuẩn hóa" với nó.

Chúng ta có thể xem xét "sự chênh lệch nhiệt độ" này từ cả góc độ kỹ thuật và thương mại. Về mặt kỹ thuật, các công ty hàng đầu của Mỹ dường như có xu hướng khám phá và đặt cược vào các con đường mới như tự hồi quy (AR) có thể dẫn đến một cuộc cách mạng mô hình, có lẽ nhờ vào đầu tư dài hạn của họ vào nghiên cứu cơ bản và khả năng chịu đựng rủi ro cao hơn. Mô hình tạo hình ảnh tự hồi quy của OpenAI, Image GPT, được ra mắt trong 2020 năm, nhằm ứng dụng kiến trúc Transformer trong xử lý ngôn ngữ tự nhiên vào lĩnh vực tạo hình ảnh.

Lực lượng trong nước có thể tập trung nhiều hơn vào việc tối ưu hóa lộ trình khuếch tán trưởng thành và nhanh chóng áp dụng nó, điều này rất hiệu quả trong giai đoạn bắt kịp, nhưng nó cũng có thể mang lại sự phụ thuộc con đường nhất định. Đồng thời, sức mạnh tính toán, dữ liệu chất lượng cao và đổi mới thuật toán cốt lõi cần thiết cho bản thân các mô hình hàng đầu tạo thành một rào cản đáng kể. Có quan điểm cho rằng mô hình Diffusion có thể đã đạt đến nút thắt cổ chai và cần phải được phá vỡ khẩn cấp.

Về mặt thương mại, định vị thị trường và các mô hình kiếm tiền cũng đã định hình các hướng phát triển khác nhau. Midjourney, GPT-4o, v.v., dường như hướng đến những người dùng chuyên nghiệp yêu cầu hiệu quả cuối cùng hoặc thị trường có sẵn sàng trả tiền mạnh mẽ, theo đuổi việc tạo ra các công cụ "bùng nổ" và tính phí trực tiếp. Các kịch bản ứng dụng khổng lồ của Trung Quốc (thương mại điện tử, mạng xã hội, tiếp thị, v.v.) có thể tiết kiệm chi phí, hiệu quả hơn và tích hợp với hệ sinh thái hiện có, thúc đẩy sự phát triển công nghệ thiên về tối ưu hóa kỹ thuật và trao quyền nền tảng, thay vì khám phá cực đoan một công cụ duy nhất. Sự phân chia này cũng trở nên trầm trọng hơn bởi các ưu tiên vốn và chiến lược tích hợp sinh thái khác nhau.

Tất nhiên, điều này không có nghĩa là Trung Quốc chưa đạt được thành tựu trong lĩnh vực tiểu sử. Các công ty như Alibaba, Byte và DeepSeek cũng đang tiếp tục tung ra các mô hình cạnh tranh. Chỉ là ở cấp độ "mô hình nổ" toàn cầu, các công ty Mỹ đang tạm thời dẫn đầu.

Cuối cùng, sức mạnh tổng hợp của công nghệ và kinh doanh đang định hình bối cảnh hiện tại. Với làn sóng tự hồi quy mới mà GPT-4o có thể dẫn đầu, chắc chắn chúng ta không thể chờ đợi để thấy sự tiến bộ của mã nguồn mở theo hướng này, hoặc sự theo dõi và triển khai nhanh chóng của các doanh nghiệp Trung Quốc.

Nhấp vào "tình yêu" và bắt đầu

Như

Chia sẻ

Phổ biến

Bình luận