通义千问3-全能技术报告

我们提出 Qwen3-Omni,这是一个单一的多模态模型,首次在文本、图像、音频和视频四种模态上均实现了当前最先进的性能,且在各项任务中均未出现相对于单模态模型的性能下降。Qwen3-Omni 在相同参数规模下,其性能与 Qwen 系列中的单模态模型相当,并在音频任务上表现尤为突出。在 36 个音频及音视频基准测试中,Qwen3-Omni 在其中 32 个实现了开源模型的最优表现(SOTA),在 22 个任务上达到整体最优,显著优于 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等强大闭源模型。Qwen3-Omni 采用“思考者-说话者”混合专家(Thinker-Talker MoE)架构,统一融合了文本、图像、音频与视频的感知与生成能力,从而实现流畅的文本输出和自然的实时语音交互。该模型支持 119 种语言的文本交互,具备 19 种语言的语音理解能力,以及 10 种语言的语音生成能力。为降低流式合成中的首包延迟(first-packet latency),其“说话者”模块采用多码本(multi-codebook)方案,通过自回归方式预测离散语音编码,实现高效语音生成。基于这些码本强大的表征能力,我们以轻量级因果卷积网络(causal ConvNet)替代计算密集型的分块扩散模型(block-wise diffusion),从而实现从首个编码帧即可开始流式输出。在冷启动场景下,Qwen3-Omni 的理论端到端首包延迟仅为 234 毫秒。为进一步增强多模态推理能力,我们引入了一个“思考”模型,可对任意模态输入进行显式推理。由于当前研究社区尚缺乏通用的音频字幕生成模型,我们对 Qwen3-Omni-30B-A3B 进行微调,得到了 Qwen3-Omni-30B-A3B-Captioner,该模型能够为任意音频输入生成详细且低幻觉的字幕。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking 以及 Qwen3-Omni-30B-A3B-Captioner 已在 Apache 2.0 许可证下公开发布。