vor 19 Tagen

Technischer Bericht zu Qwen3-Omni

Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin

Details der Forschungsarbeit anzeigen View Code

Abstract

Wir stellen Qwen3-Omni vor, ein einziges multimodales Modell, das erstmals die state-of-the-art-Leistung bei Text, Bild, Audio und Video beibehält – ohne Kompromisse gegenüber einzelmodalen Gegenstücken. Qwen3-Omni erreicht die Leistungsfähigkeit vergleichbar großer einzelmodaler Modelle innerhalb der Qwen-Serie und übertrifft insbesondere bei Audio-Aufgaben. Auf 36 Audio- und audiovisuellen Benchmarks erzielt Qwen3-Omni Open-Source-SOTA auf 32 Benchmarks und insgesamt SOTA auf 22, wodurch es starke proprietäre Modelle wie Gemini-2.5-Pro, Seed-ASR und GPT-4o-Transcribe übertrifft. Qwen3-Omni nutzt eine Thinker-Talker-MoE-Architektur, die Wahrnehmung und Generierung über Text, Bilder, Audio und Video hinweg vereint und flüssigen Text sowie natürliches Echtzeit-Sprechen ermöglicht. Es unterstützt Text-Interaktion in 119 Sprachen, Sprachverstehen in 19 Sprachen und Sprachgenerierung in 10 Sprachen. Um die Latenz des ersten Pakets bei Streaming-Synthese zu reduzieren, prognostiziert der Talker autoregressiv diskrete Sprachcodecs mittels eines mehrfachen Codebuch-Schemas. Unter Ausnutzung der repräsentativen Kapazität dieser Codebücher ersetzen wir die rechenintensive blockweise Diffusion durch ein leichtgewichtiges kausales ConvNet, wodurch bereits ab dem ersten Codec-Frame ein Streaming möglich ist. Im Cold-Start-Setting erreicht Qwen3-Omni eine theoretische end-to-end-Latenz des ersten Pakets von 234 ms. Um die multimodale Schlussfolgerung weiter zu stärken, führen wir ein Thinking-Modell ein, das explizit über Eingaben aus beliebigen Modalitäten nachdenkt. Da die Forschungsgemeinschaft derzeit kein allgemein verwendbares Audio-Captioning-Modell besitzt, haben wir Qwen3-Omni-30B-A3B fine-tuned, um Qwen3-Omni-30B-A3B-Captioner zu erhalten, das detaillierte, wenig fehlerhafte Beschreibungen für beliebige Audioeingaben generiert. Die Modelle Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking und Qwen3-Omni-30B-A3B-Captioner werden unter der Apache-2.0-Lizenz öffentlich freigegeben.