Technischer Bericht zu Qwen3-Omni

Wir stellen Qwen3-Omni vor, ein einziges multimodales Modell, das erstmals die state-of-the-art-Leistung bei Text, Bild, Audio und Video beibehält – ohne Kompromisse gegenüber einzelmodalen Gegenstücken. Qwen3-Omni erreicht die Leistungsfähigkeit vergleichbar großer einzelmodaler Modelle innerhalb der Qwen-Serie und übertrifft insbesondere bei Audio-Aufgaben. Auf 36 Audio- und audiovisuellen Benchmarks erzielt Qwen3-Omni Open-Source-SOTA auf 32 Benchmarks und insgesamt SOTA auf 22, wodurch es starke proprietäre Modelle wie Gemini-2.5-Pro, Seed-ASR und GPT-4o-Transcribe übertrifft. Qwen3-Omni nutzt eine Thinker-Talker-MoE-Architektur, die Wahrnehmung und Generierung über Text, Bilder, Audio und Video hinweg vereint und flüssigen Text sowie natürliches Echtzeit-Sprechen ermöglicht. Es unterstützt Text-Interaktion in 119 Sprachen, Sprachverstehen in 19 Sprachen und Sprachgenerierung in 10 Sprachen. Um die Latenz des ersten Pakets bei Streaming-Synthese zu reduzieren, prognostiziert der Talker autoregressiv diskrete Sprachcodecs mittels eines mehrfachen Codebuch-Schemas. Unter Ausnutzung der repräsentativen Kapazität dieser Codebücher ersetzen wir die rechenintensive blockweise Diffusion durch ein leichtgewichtiges kausales ConvNet, wodurch bereits ab dem ersten Codec-Frame ein Streaming möglich ist. Im Cold-Start-Setting erreicht Qwen3-Omni eine theoretische end-to-end-Latenz des ersten Pakets von 234 ms. Um die multimodale Schlussfolgerung weiter zu stärken, führen wir ein Thinking-Modell ein, das explizit über Eingaben aus beliebigen Modalitäten nachdenkt. Da die Forschungsgemeinschaft derzeit kein allgemein verwendbares Audio-Captioning-Modell besitzt, haben wir Qwen3-Omni-30B-A3B fine-tuned, um Qwen3-Omni-30B-A3B-Captioner zu erhalten, das detaillierte, wenig fehlerhafte Beschreibungen für beliebige Audioeingaben generiert. Die Modelle Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking und Qwen3-Omni-30B-A3B-Captioner werden unter der Apache-2.0-Lizenz öffentlich freigegeben.