Qwen3 技术报告
An Yang, Anfeng Li, Baosong Yang, Beichen Zhang, Binyuan Hui, Bo Zheng, etc
发布日期: 5/20/2025

摘要
在本项工作中,我们推出了 Qwen3,这是 Qwen 模型家族的最新版本。Qwen3 包含一系列旨在提升性能、效率和多语言能力的大语言模型(LLMs)。Qwen3 系列包括稠密架构和专家混合(Mixture-of-Experts, MoE)架构的模型,参数规模从 6 亿到 2350 亿不等。Qwen3 的一项关键创新是将“思考模式”(用于复杂的多步骤推理)与“非思考模式”(用于快速、上下文驱动的响应)整合为统一框架。这一设计消除了在不同模型之间切换的需求 —— 比如聊天优化模型(如 GPT-4o)与专用于推理的模型(如 QwQ32B)—— 并支持根据用户查询或聊天模板动态切换模式。 同时,Qwen3 引入了“思考预算”机制,使用户能够在推理过程中自适应地分配计算资源,从而根据任务复杂度在延迟与性能之间实现平衡。此外,Qwen3 利用了旗舰模型的知识迁移,大幅减少了构建小规模模型所需的计算资源,同时保持了高度的性能竞争力。实证评估表明,Qwen3 在代码生成、数学推理、智能体任务等多种基准测试中达到了业界领先的表现,具有与更大型 MoE 模型和闭源模型相竞争的能力。与前代模型 Qwen2.5 相比,Qwen3 的多语言支持从 29 种语言和方言拓展到了 119 种,显著提升了跨语言理解与生成能力,从而加强了其全球可达性。为促进可复现性及社区驱动的研究与开发,所有 Qwen3 模型均以 Apache 2.0 协议开源发布。