Qwen3-Omni テクニカルレポート

我々は、テキスト、画像、音声、動画のすべてのモダリティにおいて、単一モダリティモデルと比較して性能の低下を伴わず、初めて最先端の性能を維持する単一のマルチモーダルモデル「Qwen3-Omni」を紹介する。Qwenシリーズ内の同サイズの単一モダリティモデルと同等の性能を達成するとともに、特に音声タスクにおいて顕著な優位性を発揮する。36の音声および音声・視覚統合ベンチマークにおいて、Qwen3-Omniは32のベンチマークでオープンソースのSOTA(最先端)を達成し、22のベンチマークで全体的なSOTAを記録。Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribeといった強力な閉鎖型モデルを上回る性能を実現した。Qwen3-Omniは、「Thinker-Talker MoE(Mixed-of-Experts)」アーキテクチャを採用しており、テキスト、画像、音声、動画の各モダリティにわたる認識と生成を統合的に処理する。これにより、自然なテキスト出力とリアルタイムで自然な音声出力が可能となる。119言語のテキスト対話、19言語の音声理解、10言語の音声生成をサポートしている。ストリーミング合成における初パケット遅延を低減するため、Talker部はマルチコードブック方式を用いて、逐次的に離散化された音声コーデックを予測する。これらのコードブックの表現能力を活用し、計算コストの高いブロック単位の拡散モデルを、軽量な因果型ConvNet(因果畳み込みネットワーク)に置き換えることで、最初のコーデックフレームからストリーミングを開始可能とした。コールドスタート環境下では、Qwen3-Omniは理論的なエンドツーエンド初パケット遅延を234msまで短縮した。さらにマルチモーダル推論能力を強化するため、任意のモダリティからの入力を明示的に推論処理する「Thinkingモデル」を導入した。現在の研究コミュニティには汎用的な音声キャプションモデルが存在しないため、Qwen3-Omni-30B-A3Bを微調整して「Qwen3-Omni-30B-A3B-Captioner」を構築。このモデルは任意の音声入力に対して詳細かつ幻覚が少ないキャプションを生成する。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking、およびQwen3-Omni-30B-A3B-Captionerは、Apache 2.0ライセンスの下で公開されている。