19 天前

通义千问3-全能技术报告

Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin
通义千问3-全能技术报告
摘要

我们提出 Qwen3-Omni,这是一个单一的多模态模型,首次在文本、图像、音频和视频四种模态上均实现了当前最先进的性能,且在各项任务中均未出现相对于单模态模型的性能下降。Qwen3-Omni 在相同参数规模下,其性能与 Qwen 系列中的单模态模型相当,并在音频任务上表现尤为突出。在 36 个音频及音视频基准测试中,Qwen3-Omni 在其中 32 个实现了开源模型的最优表现(SOTA),在 22 个任务上达到整体最优,显著优于 Gemini-2.5-Pro、Seed-ASR 和 GPT-4o-Transcribe 等强大闭源模型。Qwen3-Omni 采用“思考者-说话者”混合专家(Thinker-Talker MoE)架构,统一融合了文本、图像、音频与视频的感知与生成能力,从而实现流畅的文本输出和自然的实时语音交互。该模型支持 119 种语言的文本交互,具备 19 种语言的语音理解能力,以及 10 种语言的语音生成能力。为降低流式合成中的首包延迟(first-packet latency),其“说话者”模块采用多码本(multi-codebook)方案,通过自回归方式预测离散语音编码,实现高效语音生成。基于这些码本强大的表征能力,我们以轻量级因果卷积网络(causal ConvNet)替代计算密集型的分块扩散模型(block-wise diffusion),从而实现从首个编码帧即可开始流式输出。在冷启动场景下,Qwen3-Omni 的理论端到端首包延迟仅为 234 毫秒。为进一步增强多模态推理能力,我们引入了一个“思考”模型,可对任意模态输入进行显式推理。由于当前研究社区尚缺乏通用的音频字幕生成模型,我们对 Qwen3-Omni-30B-A3B 进行微调,得到了 Qwen3-Omni-30B-A3B-Captioner,该模型能够为任意音频输入生成详细且低幻觉的字幕。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking 以及 Qwen3-Omni-30B-A3B-Captioner 已在 Apache 2.0 许可证下公开发布。