이 기사는 Southern Metropolis Daily에서 복제되었습니다.
국내 대형 모델 레이싱 업그레이드, "능력 경쟁"에서 "장면 경쟁"으로 업그레이드
多模態AI競爭之道在於百姓之日用 要解決“好用”而非“能用”落地瓶頸
AGI(Artificial General Intelligence)로 가는 길에서 멀티모달리티는 기술 발전의 핵심 노드가 되고 있습니다.
4月10日,南都灣財社記者獲悉,商湯科技在“2025技術交流日”上發佈了新一代大模型系列“日日新SenseNova V6”,涵蓋通用模型、推理模型、視頻理解模型及全模態交互模型,聚焦視覺、文本、語音等多模態能力的融合與落地。“AI之道,在於百姓之日用。”商湯集團董事長徐立在現場表示,隨著通用能力增強,大模型將逐步走入更多真實生活場景,因此要解決模型“好用”而非“能用”的落地瓶頸。徐立表示,今年以來,中國大模型的研發進展顯著提速,在多個維度已具備與海外同步發佈,甚至實現局部超越的能力。
센스타임의 새로운 행보의 이면에는 국내 대규모 모델 대회가 대규모 대회에서 '추리 + 착륙'의 이중 대회로 이행하고 있는 점도 반영되어 있다. 지난 한 달 동안 Baidu의 "Wenxin Yiyan 0.0"과 Byte의 "Doubao Model"은 멀티모달 레이아웃을 강화했으며, MiniMax와 같은 스타트업도 음성 및 비디오 이해에서 빠른 돌파구를 마련했습니다. 업계는 일반적으로 음성 대화, 비디오 생성 및 체화 지능과 같은 새로운 시나리오의 출현으로 네이티브 멀티모달 아키텍처가 미래에 업계의 주요 기술 라인이 될 것이라고 믿습니다.
새로운 경로
대형 모델 기술 경로의 멀티모달 "재구성"
在行業從“百模大戰”進入深水區之後,多模態正成為國產大模型廠商共同押注的新路徑。與過去追逐參數規模不同,如今模型的發展更強調結構設計、模態協同與實際應用的連接能力。以語言為中心的範式已難獨立承載通用智慧的需求,融合圖像、語音、視頻等多源資訊,成為邁向AGI的必要一環。
"우리는 이제 인터넷에 있는 대부분의 텍스트 데이터를 다 써버렸습니다." 그의 연설에서 Xu Li는 이미지, 비디오 및 3D와 같은 수많은 비텍스트 양식에는 아직 체계적으로 탐구되지 않은 지식의 보물이 포함되어 있다고 지적했습니다. 그는 "데이터 볼륨의 관점에서 다중 양식은 인간 지능을 보완하는 핵심 요소입니다. 학습 방법 측면에서도 다중 양식이 더 효율적입니다. ”
기술적 구현 측면에서 멀티모달 융합은 단순한 양식 쌓기가 아니라 "네이티브 아키텍처"와 관련된 심층적인 설계 문제입니다.
센스타임(SenseTime)의 공동 창립자인 린 다후아(Lin Dahua)는 난두베이 파이낸스 소사이어티(Nandu Bay Finance Society) 및 기타 미디어와의 인터뷰에서 모델 간의 "추가적인" 접합은 양식 간의 능력을 약화시킬 것이며, 진정한 통합은 기본 아키텍처에서 양식 간의 연결을 개방함으로써만 달성될 수 있다고 말했다. 그는 센스타임(SenseTime)이 통일된 "인식-추론" 체인을 구축하기 위해 2023년 중반부터 모달 브리징 기술을 다루고 있다고 언급했다.
센스타임(SenseTime)은 컨버전스 아키텍처의 구현을 촉진하고 있을 뿐만 아니라, 바이두(Baidu)와 알리바바(Alibaba)와 같은 제조업체들도 "멀티모달 네이티브 교육(multimodal native training)"의 능력을 강조하고 있다.
Baidu의 Wenxin 모델은 이미지 및 텍스트 이해 및 다중 그래프 추론과 같은 작업을 테스트할 수 있도록 개방되어 있으며, Tongyi Qianwen은 비디오 및 오디오 입력의 종단 간 처리에도 리소스를 투자했습니다. 문샷(Moonshot) AI 및 지푸 AI(Zhipu AI)와 같은 신흥 업체들도 이미지 이해 또는 비디오 요약 기능을 포함하는 모델을 출시하여 "멀티모달 AI"의 새로운 고지를 놓고 경쟁하고 있습니다.
새로운 트렌드
그것은 "경량 모델 + 인터랙티브 장면"의 새로운 패러다임을 구성 할 것입니다.
동시에 착륙 시나리오는 모델 아키텍처를 역으로 형성하고 있습니다. 센스타임(SenseTime)의 공동 창립자이자 대형 디바이스 비즈니스 그룹의 사장인 양 판(Yang Fan)은 모델 구조의 변경이 종종 "수요에 의해 강제된다"고 지적했다. 자율 주행, 객실 상호 작용 및 가상 고객 서비스와 같은 상업 환경에서 다중 방식은 성능 지표일 뿐만 아니라 비용 관리 및 응답 속도의 문제이기도 합니다. 예를 들어, 센스노바 V500 시리즈에서 경량 오미니 모델은 영상과 음성 상호작용에 최적화되어 있으며, 지연 시간은 0밀리초 이내로 제어되는데, 이는 "서비스를 통해 성장한 기술"이다.
멀티모달리티는 대규모 모델 학습의 논리도 변화시키고 있습니다. Xu Li는 "대규모 스태킹 카드"에 대한 아이디어가 식고 있으며 모델 기능의 성장은 사고 사슬의 구성, 데이터 정확도 최적화 및 시나리오 적응에 더 많이 의존한다고 지적했습니다. 그는 "모델이 성장할 수 있는 방법은 단순히 토큰 수를 늘리는 것보다 더 효과적인 강화 학습이 될 수 있다"고 믿습니다. 이러한 추세로 인해 국내 제조업체들은 "데이터 및 구조" 시스템의 최적화에 더 많은 에너지를 쏟아야 합니다.
업계의 관점에서 볼 때, 멀티모달리티(multimodality)는 기술, 비즈니스 및 상호작용 차원의 교차점의 핵심 위치가 되고 있습니다. 하드웨어 배포 비용의 감소와 스마트 터미널의 대중화에 따라 음성, 이미지 및 비디오에 대한 모델 기능이 점차 클라우드에서 디바이스 측으로 확장되어 "경량 모델 + 인터랙티브 장면"의 새로운 패러다임을 형성할 것입니다. 국내 대형 모형 메이커는 이 길을 통해 "강력한 컴퓨팅 파워+대형 모형"의 장벽을 허물고 과학 연구 디스플레이에서 실제 사용으로의 도약을 실현하려고 노력하고 있습니다.
새로운 도전 과제
착륙이 왕이고, 제조업체들은 "라스트 마일"을 놓고 경쟁합니다.
대형 모델이 "역량 경쟁"에서 "시나리오 경쟁"으로 전환됨에 따라, R&D에서 응용까지 "라스트 마일"을 어떻게 넘을 것인가가 업계의 공통된 과제가 되었습니다. 한편으로 대부분의 제조업체는 여전히 "To C"의 길을 모색하고 있습니다. 반면에 "To B+To G"의 시나리오는 현재 가장 현실적인 돌파구가 되었습니다.
쉬 리(Xu Li)는 대형 모델이 궁극적으로 "실제 환경에서 일상적이고 지루하지만 중요한 산업 요구 사항을 해결"하며, 이는 애플리케이션 구현의 핵심일 뿐만 아니라 AI 회사가 해자를 구축할 수 있는지 여부를 결정하는 열쇠라고 지적했습니다.
최근 몇 년 동안 SenseTime은 이 체인을 개척하기 위해 "쓰리인원"(AI 인프라, 대형 모델 및 산업 응용 프로그램) 전략을 지속적으로 홍보해 왔습니다. Xu Li는 "AI가 인간에 대한 기존의 평균적인 지식을 많이 수집할 때, 클래스를 우회하는 능력을 사용하여 미해결 문제에 대한 결정론적 솔루션을 형성할 수 있다"고 믿습니다. 즉, 모델의 비즈니스 가치는 종종 특정 비즈니스 프로세스에 내장될 수 있는지, 그리고 "장난감"이 아닌 "도구"가 될 수 있는지에 달려 있습니다.
Lin Dahua는 또한 진정으로 중요한 요원은 살아있는 장면에 빠져야 한다고 강조했습니다. 예를 들어, 그는 SenseTime이 보험 청구 데이터에서 잠재적인 보험 사기 행위를 식별할 수 있는 다중 모드 모델 서비스를 보험 회사에 제공한다고 말하면서 "이것은 데모가 아니라 비즈니스 체인의 일부"라고 말하면서 "에이전트 + 산업 지식"의 조합의 실제 가치를 반영합니다.
산업 전체의 관점에서 금융, 교육, 문화 관광, 자동차 및 정부 업무와 같은 B-end 시나리오는 국내 제조업체의 주요 시험장이 되었습니다. Baidu는 정부 핫라인 및 금융 고객 서비스 시스템에 Wenxin 모델을 적용했으며, Alibaba Cloud는 재무 분석 및 계약 검토에 중점을 두고 있습니다. MiniMax 및 Zhipu AI와 같은 신흥 업체도 엔터프라이즈 지식 관리 및 지능형 Q&A와 같은 수직 시나리오를 확장하여 "모델 대 제품" 패키징 기능을 확립하기 위해 노력하고 있습니다.
대규모 모델 기업의 상업화 스타일도 점점 더 차별화되고 있습니다. 첫 번째 유형은 "제품화" 모델에 중점을 두고 "에이전트 + 도구 체인"으로 SaaS 시장에 진입합니다. 다른 그룹은 "플랫폼 기반" 기능을 강조하여 다른 개발자 및 업계 파트너를 위한 낮은 수준의 모델 및 API 인터페이스를 제공합니다. Lin Dahua의 견해에 따르면 이 둘은 상충되지 않지만 "업계에 깊이 파고들어야만 데이터 플라이휠과 장면 고정성을 형성할 수 있습니다"라고 이는 국내 대형 모델의 장기 상용화의 기반입니다.
"AI의 길은 사람들의 일상적인 사용에 있습니다." Xu Li는 "기술을 과시하는 것"에서 "실용성"에 이르기까지 국내 대형 모델이 실제로 평범한 사람들의 일상 생활에 들어갈 수 있는지 여부는 여전히 기술과 장면 사이의 회색 지대를 건너야 한다고 말했습니다. 산업 게임의 후반부에서는 더 이상 매개변수와 목록이 아니라 실제 세계를 이해하고 실제 프로세스를 포함하는 능력에 관한 것입니다.
작성자: Yan Zhaoxin, Nandu Bay Finance Agency 기자
드래프팅: Huang Yalan (즉, Dream AI)