Rapport technique Qwen3-Omni

Nous présentons Qwen3-Omni, un modèle multimodal unique qui, pour la première fois, maintient des performances de pointe sur le texte, l’image, l’audio et la vidéo, sans aucune dégradation par rapport aux modèles monomodaux équivalents. Qwen3-Omni atteint les performances des modèles monomodaux de taille comparable au sein de la série Qwen, et se distingue particulièrement sur les tâches audio. Sur 36 benchmarks audio et audio-visuels, Qwen3-Omni obtient le meilleur résultat open-source (SOTA) sur 32 benchmarks et le meilleur résultat global (SOTA) sur 22, surpassant des modèles fermés de grande envergure tels que Gemini-2.5-Pro, Seed-ASR et GPT-4o-Transcribe. Qwen3-Omni repose sur une architecture MoE Thinker-Talker, qui unifie la perception et la génération à travers le texte, les images, l’audio et la vidéo, permettant ainsi une génération de texte fluide et une parole naturelle en temps réel. Le modèle prend en charge les interactions textuelles dans 119 langues, la compréhension vocale dans 19 langues, et la génération vocale dans 10 langues. Pour réduire la latence du premier paquet dans la synthèse en flux (streaming), le module Talker prédit de manière autoregressive des codecs vocaux discrets via un schéma à multi-codebooks. En exploitant la capacité représentationnelle de ces codebooks, nous remplaçons la diffusion par blocs, coûteuse en calcul, par un réseau convolutif causal léger, permettant ainsi le streaming dès la première trame de codec. Dans des conditions de démarrage froid (cold-start), Qwen3-Omni atteint une latence théorique bout-en-bout du premier paquet de 234 ms. Pour renforcer davantage le raisonnement multimodal, nous introduisons un modèle de réflexion (Thinking model) qui raisonne explicitement sur des entrées issues de n’importe quelle modalité. Étant donné que la communauté scientifique ne dispose actuellement pas de modèle généraliste de captioning audio, nous avons finement ajusté Qwen3-Omni-30B-A3B pour obtenir Qwen3-Omni-30B-A3B-Captioner, capable de produire des légendes détaillées et à faible taux d’hallucinations pour tout type d’entrée audio. Les versions Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking et Qwen3-Omni-30B-A3B-Captioner sont désormais publiques sous licence Apache 2.0.