HyperAIHyperAI

Command Palette

Search for a command to run...

Technischer Bericht zu Qwen3-Omni

Zusammenfassung

Wir stellen Qwen3-Omni vor, ein einziges multimodales Modell, das erstmals die state-of-the-art-Leistung bei Text, Bild, Audio und Video beibehält – ohne Kompromisse gegenüber einzelmodalen Gegenstücken. Qwen3-Omni erreicht die Leistungsfähigkeit vergleichbar großer einzelmodaler Modelle innerhalb der Qwen-Serie und übertrifft insbesondere bei Audio-Aufgaben. Auf 36 Audio- und audiovisuellen Benchmarks erzielt Qwen3-Omni Open-Source-SOTA auf 32 Benchmarks und insgesamt SOTA auf 22, wodurch es starke proprietäre Modelle wie Gemini-2.5-Pro, Seed-ASR und GPT-4o-Transcribe übertrifft. Qwen3-Omni nutzt eine Thinker-Talker-MoE-Architektur, die Wahrnehmung und Generierung über Text, Bilder, Audio und Video hinweg vereint und flüssigen Text sowie natürliches Echtzeit-Sprechen ermöglicht. Es unterstützt Text-Interaktion in 119 Sprachen, Sprachverstehen in 19 Sprachen und Sprachgenerierung in 10 Sprachen. Um die Latenz des ersten Pakets bei Streaming-Synthese zu reduzieren, prognostiziert der Talker autoregressiv diskrete Sprachcodecs mittels eines mehrfachen Codebuch-Schemas. Unter Ausnutzung der repräsentativen Kapazität dieser Codebücher ersetzen wir die rechenintensive blockweise Diffusion durch ein leichtgewichtiges kausales ConvNet, wodurch bereits ab dem ersten Codec-Frame ein Streaming möglich ist. Im Cold-Start-Setting erreicht Qwen3-Omni eine theoretische end-to-end-Latenz des ersten Pakets von 234 ms. Um die multimodale Schlussfolgerung weiter zu stärken, führen wir ein Thinking-Modell ein, das explizit über Eingaben aus beliebigen Modalitäten nachdenkt. Da die Forschungsgemeinschaft derzeit kein allgemein verwendbares Audio-Captioning-Modell besitzt, haben wir Qwen3-Omni-30B-A3B fine-tuned, um Qwen3-Omni-30B-A3B-Captioner zu erhalten, das detaillierte, wenig fehlerhafte Beschreibungen für beliebige Audioeingaben generiert. Die Modelle Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking und Qwen3-Omni-30B-A3B-Captioner werden unter der Apache-2.0-Lizenz öffentlich freigegeben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Technischer Bericht zu Qwen3-Omni | Paper | HyperAI