KLCII 사장 Wang Zhongyuan과의 인터뷰: 넓은 의미에서 AGI를 달성하려면 최소 10~0년 또는 그 이상이 걸릴 것입니다
업데이트 날짜: 45-0-0 0:0:0

27/0,2025 Zhongguancun 포럼 연례 회의베이징에서 열리는 포럼은 31/0까지 진행됩니다. 올해 포럼 연례회의의 주제는 "새로운 품질 생산성과 글로벌 과학기술 협력"이다.

29/0 오후,Wang Zhongyuan, Beijing Academy of Artificial Intelligence 회장(이하 "KLCII"라고 함).미래 인공지능 개척자 포럼(Future Artificial Intelligence Pioneer Forum)에서 그는 "체화된 지능 기술 진화와 생태적 공동 구축"에 대해 연설했다.

포럼에서 KLCII는 최초의 크로스 온톨로지 체화 뇌 협업 프레임워크인 RoboOS와 크로스 시나리오, 멀티태스킹, 경량, 신속한 배포 및 크로스 온톨로지 협업을 실현하고 단일 머신 인텔리전스를 스웜 인텔리전스로 촉진할 수 있는 오픈 소스 구현 브레인인 RoboBrain을 출시했습니다.

포럼을 시작하기 전에,왕중위안(王中元)"Daily Economic News"(이하 NBD) 기자와 인터뷰했습니다.

智源研究院是在科技部和北京市支援下,聯合北京人工智慧領域優勢單位共建的人工智慧領域的新型研發機構。王仲遠是第二任院長,他在2018年榮獲“MIT 기술 검토35 과학 기술 혁신의 세 미만 0 사람들"; 그는 또한 Microsoft, Facebook(현 Meta), Meituan 및 Kuaishou에서 근무한 경험이 있습니다.

사진 출처: Photo by reporter Zhang Rui

현재 컴퓨팅 파워의 한계는 여전히 대규모 모델 개발에서 병목 현상 요인입니다

NBD: DeepSeek의 돌파구가 있다는 것은 대형 모델에서 컴퓨팅 성능이 더 이상 문제가 되지 않는다는 것을 의미합니까?

왕중위안(王中元):나는 그것에 동의하지 않는다. DeepSeek는 정말 훌륭한 결과를 달성하여 제한된 컴퓨팅 성능으로 ChatGPT-4과 같은 큰 모델을 훈련할 수 있도록 했습니다. 그러나 우리는 이러한 기술이 국제적으로 다른 기관 및 국가에서도 사용될 수 있으므로 더 큰 규모의 방향으로 대규모 모델 개발을 주도할 수 있음을 인식해야 합니다.

요즘에는 엔지니어링 최적화 덕분에 더 큰 매개변수로 모델을 훈련할 수 있습니다. 이 경우 스케일링 법칙(모델이 클수록 지능이 높음)이 여전히 유효하면 모델의 성능이 더욱 향상될 수 있습니다.

따라서 현재 모델, 특히 기본 모델은 특정 병목 현상을 겪은 것 같거나 성능 향상이 상대적으로 느리고 매우 중요한 요소는 데이터(불충분)이며 컴퓨팅 파워의 제한도 병목 현상이므로 현재 컴퓨팅 파워로는 사용할 수 없다고 생각하며, 전체 대형 모델의 기술은 아직 끝나지 않았고 컴퓨팅 파워는 여전히 필수 불가결하다고 생각합니다.

올해는 인공 지능의 적용이 크게 폭발적으로 증가할 것입니다

NBD: 업계에서는 올해가 인공지능 개발의 전환점이라고 하는데, 어떻게 생각하시나요? 당신은 이 견해에 동의합니까?

왕중위안(王中元):네, 우선, 올해 인공 지능 적용이 크게 폭발적으로 증가할 것이라고 생각합니다. 국내 모델은 작은 컴퓨팅 파워로 비슷한 성능을 달성할 수 있기 때문에 확실히 애플리케이션 랜딩 단계에 진입할 것입니다.

중국에는 많은 응용 시나리오와 응용 프로그램 요구 사항이 있으며 이는 우리의 장점입니다. 기본 모델의 능력이 향상되면 실제로 모델을 적용 할 수있는 많은 제품 관리자와 기업가가 있으며, 특히 대규모 언어 모델의 적용은 산업 폭발에 대한 큰 잠재력을 가지고 있습니다.

물론, 나는 거대 언어 모델만으로는 충분하지 않다는 점을 거듭 강조했다. 로봇에 대해 이야기하지 않더라도 단순한 텍스트 데이터가 아닌 플로우 차트, 의료 분야의 X-ray 데이터, CT 데이터, 다양한 산업의 센서 데이터와 같은 실제 산업에는 많은 수의 다중 모드 데이터가 있음을 알 수 있습니다. 따라서 다중 모드 대형 모델은 피할 수 없는 능력입니다.

현재의 멀티모달 대형 모델, 특히 멀티모달 이해 모델은 대규모 언어 모델을 핵심으로 하는 것과 같은 몇 가지 솔루션이 있지만 아직 비교적 초기 단계에 있다고 해야 합니다. 그러나 많은 대규모 언어 모델이 다중 모드 기능을 추가한 후에는 원래 언어 기능이 저하됩니다. 이는 KLCII가 지난해 통일된 네이티브 멀티모달리티(native multimodality)의 방향으로 돌파구를 마련하는 데 주력한 중요한 이유이기도 합니다.

지난해 KLCII는 텍스트, 이미지, 비디오를 처음부터 기본적으로 통합하고 이해와 생성을 통합하는 통합 네이티브 멀티모달 모델인 Emu3를 공식 출시했습니다. 우리는 이 통합 다중 모드 모델이 다양한 산업에서 대규모 모델을 구현하고 더 나은 결과를 달성하는 데 도움이 될 것으로 기대합니다.

체화된 지혜는 AGI를 달성하기 위한 핵심 역량입니다.

NBD: 우리가 AGI(Artificial General Intelligence)에서 얼마나 멀리 떨어져 있다고 생각하십니까? 그 밖에 해결해야 할 사항은 무엇입니까?

왕중위안(王中元):솔직히 말해서 현재로서는 AGI에 대한 명확한 정의와 광범위한 합의가 없습니다. 쓰기 능력의 AGI만 보면 실제로 AGI에 어느 정도 도달했습니다. 튜링 테스트가 인공지능이 과거에 AGI를 달성했는지 여부를 판단하는 기준으로 사용된다면, 적어도 문자 그대로의 수준에서는 인공지능이 AGI에 도달했을 가능성이 높습니다.

다재다능함 외에도 오늘날의 대규모 언어 모델은 수학 및 프로그래밍과 같은 많은 특정 분야에서 석사 또는 박사 수준에 가깝습니다. 이러한 측면에서 인공 지능은 부분적으로 AGI의 일정 수준에 도달했다고 말할 수 있습니다.

하지만 좀 더 넓은 의미에서 본다면, 예를 들어 AI가 인간의 언어를 이해하고, 집안일, 요리, 설거지 등 실생활의 특정 문제를 해결할 수 있게 하는 것과 같은 경우, 이 수준의 AGI에 도달하기까지는 아직 갈 길이 멀고, 적어도 10년에서 0년 또는 그 이상이 걸릴 수도 있습니다. 이 과정에서는 온톨로지의 능력, 세계 모델 구축 진행 상황, 다양한 착륙 시나리오에서의 데이터 축적에 따라 달라지기 때문에 여전히 긴 주기를 거쳐야 합니다.

NBD: 체화된 지능의 물리적 상호 작용이 AGI의 핵심 기능이 될 것인가?

왕중위안(王中元):우리가 이해하는 넓은 의미에서 이는 확실히 AGI의 핵심 기능이며, 결국 인공 지능이 디지털 세계에서 물리적 세계로 이동하려면 실제 세계와 상호 작용하고 상호 작용을 통해 학습해야 합니다.

내셔널 비즈니스 데일리