19일 전

Qwen3-Omni 기술 보고서

Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin
Qwen3-Omni 기술 보고서
초록

우리는 텍스트, 이미지, 음성, 영상 등 다양한 모달리티에 걸쳐 최신 기술 수준의 성능을 일관되게 유지하면서도, 단일 모달 모델과 비교해 성능 저하 없이 기능을 수행하는 단일 다중모달 모델인 Qwen3-Omni를 소개합니다. Qwen 시리즈 내 동일한 규모의 단일 모달 모델들과 비교해 동등한 성능을 달성하며, 특히 음성 처리 과제에서 뛰어난 성능을 보입니다. 전 세계 36개의 음성 및 음성-영상 기반 벤치마크에서 Qwen3-Omni는 32개 벤치마크에서 오픈소스 최고 성능(SOTA)을 기록했으며, 22개 벤치마크에서 전반적인 최고 성능을 달성하여, Gemini-2.5-Pro, Seed-ASR, GPT-4o-Transcribe와 같은 강력한 폐쇄소스 모델들을 상회합니다.Qwen3-Omni는 텍스트, 이미지, 음성, 영상 전반에 걸쳐 인지와 생성을 통합하는 Thinker-Talker MoE(Mixture of Experts) 아키텍처를 채택하여 자연스럽고 부드러운 텍스트 생성과 실시간 음성 출력을 가능하게 합니다. 이 모델은 119개 언어의 텍스트 상호작용, 19개 언어의 음성 이해, 10개 언어의 음성 생성을 지원합니다. 스트리밍 합성 시 첫 패킷 지연을 최소화하기 위해, Talker 모듈은 다중 코드북 기반의 자기회귀적 방식으로 이산 음성 코덱을 예측합니다. 이러한 코드북의 표현 능력을 활용해, 계산 비용이 큰 블록 단위의 확산 모델( diffusion)을 가벼운 인과적 ConvNet으로 대체함으로써, 첫 번째 코덱 프레임부터 스트리밍을 시작할 수 있도록 했습니다. 냉시작(cold-start) 환경에서 Qwen3-Omni는 이론적으로 종단 간 최초 패킷 지연(latency)을 234ms로 구현했습니다.다중모달 추론 능력을 더욱 강화하기 위해, 어떤 모달리티에서 온 입력이라도 명시적으로 추론할 수 있는 Thinker 모델을 도입했습니다. 현재 연구계에는 일반적인 음성 캡셔닝 모델이 부족한 상황에서, 우리는 Qwen3-Omni-30B-A3B를 미세조정하여 Qwen3-Omni-30B-A3B-Captioner를 개발했습니다. 이 모델은 임의의 음성 입력에 대해 상세하고 허구(hallucination)가 적은 캡셔닝을 생성합니다.Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, 그리고 Qwen3-Omni-30B-A3B-Captioner는 모두 Apache 2.0 라이선스 하에 공개되어 누구나 자유롭게 사용할 수 있습니다.