27/0,2025 Hội nghị thường niên Diễn đàn ZhongguancunKhai mạc tại Bắc Kinh, diễn đàn sẽ kéo dài đến 31/0. Chủ đề của cuộc họp thường niên năm nay của Diễn đàn là "Năng suất chất lượng mới và hợp tác khoa học và công nghệ toàn cầu".
29/0 chiều,Wang Zhongyuan, Chủ tịch Học viện Trí tuệ nhân tạo Bắc Kinh (sau đây gọi là "KLCII").Tại Diễn đàn Tiên phong Trí tuệ Nhân tạo Tương lai, ông đã có bài phát biểu về "Sự phát triển công nghệ trí tuệ hiện thân và đồng xây dựng sinh thái".
Tại diễn đàn, KLCII đã phát hành RoboOS, khuôn khổ cộng tác não thể hiện giữa các bản thể học đầu tiên và RoboBrain, một bộ não được thể hiện mã nguồn mở, có thể thực hiện các kịch bản chéo, đa nhiệm, nhẹ, triển khai nhanh chóng và cộng tác giữa các bản thể, đồng thời thúc đẩy trí thông minh một máy để bầy trí thông minh.
Trước khi bắt đầu diễn đàn,Vương Trung NguyênĐược phỏng vấn bởi phóng viên của "Tin tức kinh tế hàng ngày" (sau đây gọi tắt là NBD).
智源研究院是在科技部和北京市支援下,聯合北京人工智慧領域優勢單位共建的人工智慧領域的新型研發機構。王仲遠是第二任院長,他在2018年榮獲“Đánh giá công nghệ MIT35 người dưới 0 tuổi đổi mới khoa học và công nghệ"; Ông cũng có kinh nghiệm làm việc tại Microsoft, Facebook (nay là Meta), Meituan và Kuaishou.
NBD: Với sự đột phá của DeepSeek, điều đó có nghĩa là sức mạnh tính toán không còn là vấn đề đối với các mô hình lớn?
Vương Trung Nguyên:Tôi không hoàn toàn đồng ý với điều đó. DeepSeek đã thực sự đạt được kết quả xuất sắc, đảm bảo rằng chúng ta có thể đào tạo một mô hình lớn như ChatGPT-4 với sức mạnh tính toán hạn chế. Tuy nhiên, chúng ta cần nhận thức được rằng các công nghệ như vậy cũng có thể được sử dụng bởi các tổ chức và quốc gia khác trên toàn thế giới, do đó thúc đẩy sự phát triển của các mô hình lớn theo hướng quy mô lớn hơn.
Ngày nay, nhờ tối ưu hóa kỹ thuật, có thể đào tạo các mô hình với các thông số lớn hơn. Trong trường hợp này, nếu Định luật Tỷ lệ (mô hình càng lớn thì trí thông minh của nó càng cao) vẫn còn hiệu lực, hiệu suất của mô hình có thể được cải thiện hơn nữa.
Do đó, mô hình hiện tại, đặc biệt là mô hình cơ bản, dường như đã gặp phải một nút thắt cổ chai nhất định, hoặc cải thiện hiệu suất của nó tương đối chậm, một yếu tố rất quan trọng là dữ liệu (không đủ), và giới hạn sức mạnh tính toán cũng là một nút thắt cổ chai, vì vậy tôi nghĩ sức mạnh tính toán hiện tại là không đủ để sử dụng, tôi nghĩ công nghệ của toàn bộ mô hình lớn còn lâu mới kết thúc, và sức mạnh tính toán vẫn không thể thiếu.
NBD: Ngành công nghiệp nói rằng năm nay là bước ngoặt trong sự phát triển của trí tuệ nhân tạo, bạn nghĩ sao? Bạn có đồng ý với quan điểm này không?
Vương Trung Nguyên:Vâng, trước hết, tôi nghĩ sẽ có một sự bùng nổ lớn trong việc ứng dụng trí tuệ nhân tạo trong năm nay. Bởi vì mô hình trong nước có thể đạt được hiệu suất tương đương với sức mạnh tính toán nhỏ, nó chắc chắn sẽ bước vào giai đoạn hạ cánh ứng dụng.
Trung Quốc có một số lượng lớn các kịch bản ứng dụng và nhu cầu ứng dụng, đó là lợi thế của chúng tôi. Khi khả năng của mô hình cơ bản được cải thiện, trên thực tế, chúng ta có nhiều nhà quản lý sản phẩm, doanh nhân, những người có thể áp dụng mô hình, đặc biệt là việc áp dụng các mô hình ngôn ngữ lớn, có tiềm năng rất lớn cho sự bùng nổ của ngành.
Tất nhiên, tôi đã nhiều lần nhấn mạnh rằng các mô hình ngôn ngữ lớn là không đủ. Ngay cả khi không nói về robot, chúng ta có thể thấy rằng có một số lượng lớn dữ liệu đa phương thức trong ngành thực, chẳng hạn như lưu đồ, dữ liệu tia X trong lĩnh vực y tế, dữ liệu CT và dữ liệu cảm biến trong các ngành khác nhau, không phải là dữ liệu văn bản đơn giản. Do đó, các mô hình lớn đa phương thức là một khả năng không thể tránh khỏi.
Các mô hình lớn đa phương thức hiện nay, đặc biệt là các mô hình hiểu đa phương thức, nên nói vẫn còn trong giai đoạn tương đối sớm, mặc dù có một số giải pháp, chẳng hạn như những mô hình ngôn ngữ lớn làm cốt lõi. Tuy nhiên, sau khi nhiều mô hình ngôn ngữ lớn bổ sung khả năng đa phương thức, khả năng ngôn ngữ ban đầu của chúng sẽ bị suy giảm. Đây cũng là lý do quan trọng khiến KLCII tập trung đột phá theo hướng đa phương thức bản địa thống nhất vào năm ngoái.
Năm ngoái, KLCII chính thức ra mắt Emu3, một mô hình đa phương thức gốc thống nhất hợp nhất văn bản, hình ảnh và video ngay từ đầu, đồng thời thống nhất sự hiểu biết và thế hệ. Chúng tôi tin rằng mô hình đa phương thức thống nhất này được kỳ vọng sẽ giúp mô hình lớn được triển khai trong các ngành công nghiệp khác nhau và đạt được kết quả tốt hơn.
NBD: Bạn nghĩ chúng ta còn xa AGI (Trí tuệ nhân tạo tổng quát) bao xa? Những gì khác cần được giải quyết?
Vương Trung Nguyên:Thành thật mà nói, hiện tại không có định nghĩa rõ ràng và sự đồng thuận rộng rãi về AGI. Nếu chúng ta chỉ nhìn vào AGI của khả năng viết, nó thực sự đã đạt đến AGI ở một mức độ nào đó. Nếu bài kiểm tra Turing được sử dụng làm tiêu chuẩn để đánh giá liệu trí tuệ nhân tạo có đạt được AGI trong quá khứ hay không, ít nhất là ở cấp độ theo nghĩa đen, trí tuệ nhân tạo có khả năng đã đạt đến AGI.
Ngoài tính linh hoạt, các mô hình ngôn ngữ lớn ngày nay còn gần với trình độ thạc sĩ hoặc thậm chí tiến sĩ trong nhiều lĩnh vực cụ thể, chẳng hạn như toán học và lập trình. Từ những khía cạnh này, chúng ta có thể nói rằng trí tuệ nhân tạo đã một phần đạt đến một số cấp độ AGI.
Nhưng nếu bạn nhìn nó theo nghĩa rộng hơn, chẳng hạn như cho phép AI hiểu ngôn ngữ của con người và giải quyết các vấn đề cụ thể trong cuộc sống thực, chẳng hạn như làm việc nhà, nấu ăn, rửa bát, v.v., tôi nghĩ vẫn còn một chặng đường dài trước khi đạt được mức AGI này, và có thể mất nhiều năm, ít nhất là 10 đến 0 năm hoặc thậm chí lâu hơn. Bởi trong quá trình này phụ thuộc vào khả năng của bản thể, tiến độ xây dựng mô hình thế giới và sự tích lũy dữ liệu trong các kịch bản hạ cánh khác nhau nên vẫn cần trải qua một chu kỳ dài.
NBD: Liệu sự tương tác vật lý của trí thông minh hiện thân có trở thành khả năng cốt lõi của AGI không?
Vương Trung Nguyên:Đó chắc chắn là khả năng cốt lõi của AGI theo nghĩa rộng như chúng ta hiểu, và cuối cùng, nếu trí tuệ nhân tạo muốn chuyển từ thế giới kỹ thuật số sang thế giới thực, nó phải tương tác với thế giới thực và học hỏi thông qua tương tác.
Nhật báo Kinh doanh Quốc gia