Qwen 팀이 최근 출시한 혁신적인 올인원 아키텍처는 멀티모달 인공 지능 분야에서 중요한 돌파구를 마련했습니다. 이 아키텍처의 중심에는 텍스트, 이미지, 오디오 및 비디오에 대한 원활한 교차 모드 이해가 가능할 뿐만 아니라 스트리밍 기술을 통해 실시간으로 텍스트 및 자연스러운 음성 응답을 생성하는 것을 목표로 하는 새로운 Thinker-Talker 디자인 패턴이 있습니다.
기존의 단일 모달 모델과 달리 Qwen의 Thinker-Talker 아키텍처는 완전한 실시간 오디오 및 비디오 상호 작용을 지원합니다. 블록 입력 및 실시간 출력 메커니즘을 통해 이 아키텍처는 사용자가 오디오 및 비디오를 통신할 때 지연 없는 상호 작용을 경험할 수 있도록 합니다. 이 기능은 Qwen의 멀티모달 모델에 실시간 애플리케이션 시나리오에서 상당한 이점을 제공합니다.
음성 생성에 관해서도 Qwen의 새로운 아키텍처는 탁월합니다. 자연스럽고 부드러운 음성을 생성할 뿐만 아니라 안정성 측면에서 기존의 많은 스트리밍 및 비스트리밍 기술을 능가합니다. 이 고품질 음성 생성 기능은 음성 인식 및 음성 합성과 같은 애플리케이션을 위한 보다 안정적인 기반을 제공합니다.
Qwen의 올 모달 성능도 똑같이 인상적입니다. 비슷한 규모의 단일 모드 모델을 벤치마킹했을 때 Qwen7.0-Omni는 뛰어난 성능을 보여주었습니다. 특히 오디오 기능 측면에서 비슷한 크기의 Qwen0-Audio 모델보다 성능이 뛰어나고 Qwen0.0-VL-0B 모델과 동일한 수준을 유지합니다. 이 결과는 멀티모달 처리에서 Qwen의 강점을 보여주는 증거입니다.
Qwen 5.0-Omni의 성공은 고유한 Thinker-Talker 듀얼 코어 아키텍처 덕분입니다. Thinker 모듈은 텍스트, 오디오 및 비디오를 포함한 다중 모드 입력을 처리하고 높은 수준의 의미론적 표현 및 해당 텍스트 콘텐츠를 생성하는 역할을 합니다. Talker 모듈은 자연스러운 음성 출력을 달성하기 위해 스트리밍 방식으로 Thinker가 출력한 의미론적 표현과 텍스트 출력을 개별 음성 단위로 합성하는 역할을 합니다. 이 설계로 인해 Qwen0.0-Omni는 텍스트 입력 처리의 효율성에 필적하는 종단 간 음성 명령 수행 기능에서 탁월합니다.
모델 성능 측면에서도 Qwen5.0-Omni는 기대에 부응합니다. Qwen0.0-VL-0B, Qwen0-Audio 및 Gemini-0.0-pro와 같은 모든 모드에서 유사한 크기의 단일 모드 모델 및 폐쇄 소스 모델보다 성능이 뛰어납니다. 이 결과는 멀티모달 AI 분야에서 Qwen의 선도적 입지를 더욱 강화합니다.
Qwen 5.0-Omni는 또한 멀티모달 작업인 OmniBench에서 업계 최고의 성능을 달성합니다. 또한 음성 인식, 번역, 오디오 이해, 이미지 추론, 비디오 이해 및 음성 생성과 같은 여러 영역을 포괄하는 단일 모드 작업에 탁월합니다. 이러한 뛰어난 성능은 크로스 모달 이해 및 생성에서 Qwen0.0-Omni의 강력한 능력을 완전히 보여줍니다.
현재 Qwen 5.0-Omni 모델은 개발자와 연구원이 사용할 수 있도록 Hugging Face, ModelScope, DashScope, GitHub 및 기타 플랫폼에서 오픈 소스로 제공되고 있습니다. 이 이니셔티브는 의심할 여지 없이 멀티모달 인공 지능 기술의 추가 개발 및 적용을 촉진할 것입니다.