Qwen3-Omni 기술 보고서

우리는 텍스트, 이미지, 음성, 영상 등 다양한 모달리티에 걸쳐 최신 기술 수준의 성능을 일관되게 유지하면서도, 단일 모달 모델과 비교해 성능 저하 없이 기능을 수행하는 단일 다중모달 모델인 Qwen3-Omni를 소개합니다. Qwen 시리즈 내 동일한 규모의 단일 모달 모델들과 비교해 동등한 성능을 달성하며, 특히 음성 처리 과제에서 뛰어난 성능을 보입니다. 전 세계 36개의 음성 및 음성-영상 기반 벤치마크에서 Qwen3-Omni는 32개 벤치마크에서 오픈소스 최고 성능(SOTA)을 기록했으며, 22개 벤치마크에서 전반적인 최고 성능을 달성하여, Gemini-2.5-Pro, Seed-ASR, GPT-4o-Transcribe와 같은 강력한 폐쇄소스 모델들을 상회합니다.Qwen3-Omni는 텍스트, 이미지, 음성, 영상 전반에 걸쳐 인지와 생성을 통합하는 Thinker-Talker MoE(Mixture of Experts) 아키텍처를 채택하여 자연스럽고 부드러운 텍스트 생성과 실시간 음성 출력을 가능하게 합니다. 이 모델은 119개 언어의 텍스트 상호작용, 19개 언어의 음성 이해, 10개 언어의 음성 생성을 지원합니다. 스트리밍 합성 시 첫 패킷 지연을 최소화하기 위해, Talker 모듈은 다중 코드북 기반의 자기회귀적 방식으로 이산 음성 코덱을 예측합니다. 이러한 코드북의 표현 능력을 활용해, 계산 비용이 큰 블록 단위의 확산 모델( diffusion)을 가벼운 인과적 ConvNet으로 대체함으로써, 첫 번째 코덱 프레임부터 스트리밍을 시작할 수 있도록 했습니다. 냉시작(cold-start) 환경에서 Qwen3-Omni는 이론적으로 종단 간 최초 패킷 지연(latency)을 234ms로 구현했습니다.다중모달 추론 능력을 더욱 강화하기 위해, 어떤 모달리티에서 온 입력이라도 명시적으로 추론할 수 있는 Thinker 모델을 도입했습니다. 현재 연구계에는 일반적인 음성 캡셔닝 모델이 부족한 상황에서, 우리는 Qwen3-Omni-30B-A3B를 미세조정하여 Qwen3-Omni-30B-A3B-Captioner를 개발했습니다. 이 모델은 임의의 음성 입력에 대해 상세하고 허구(hallucination)가 적은 캡셔닝을 생성합니다.Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking, 그리고 Qwen3-Omni-30B-A3B-Captioner는 모두 Apache 2.0 라이선스 하에 공개되어 누구나 자유롭게 사용할 수 있습니다.