阿里巴巴发布Qwen3-235B新版本,性能超越Kimi-2,推出低计算需求FP8版本
阿里巴巴在2023年4月推出了其首款生成式人工智能大语言模型(LLM)通义千问,并于2025年4月发布了Qwen 3。这些模型因其在完成数学、科学、推理和写作任务方面表现出色,得到了全球科技和商业界的广泛认可。近日,阿里巴巴的“Qwen团队”再次发布了Qwen系列的最新更新——Qwen3-235B-A22B-2507和FP8版本,引起了西方AI用户的密切关注。 Qwen3-235B-A22B-2507的重要特性: 1. 改进和优化: 新模型在推理任务、事实准确性和多语言理解能力上有了显著提升,优于竞争对手Moonshot的Kimi-2(2025年7月发布)和Anthropic的Claude Opus 4。 2. 编码能力: 据Qwen团队介绍,新版本在编程任务上的表现也更加出色,更好地符合用户偏好,处理长文本的能力更强。 3. 取消混合推理模式: 原来的Qwen 3支持混合推理模式,用户可以手动开启或关闭该模式。然而,Qwen团队在最新的更新中宣布不再继续这一策略。取而代之的是,他们将分别训练指令和推理模型,使模型能够更紧密地遵循用户指令,产生更一致的响应。 4. 性能指标: 相比之前的FP16版本,FP8版本在GPU内存使用、推理速度和功耗方面都有明显改善。具体来说,FP8版本仅需约30GB内存,相比FP16版本的约88GB减少了近三分之二;推理速度从每秒30-40个token提高到每秒60-70个token;功耗降低了30%-50%,并且仅需4台A100 GPU或更少的数量,而非8台。 FP8版本的优势: - 低资源需求: FP8版本通过8位浮点运算压缩了模型的数值操作,大幅减少了运行所需的内存和计算资源,这意味着企业可以在更小、成本更低的硬件上运行该模型,或者在云中更高效地部署。 - 快速响应和低能耗: 由于资源需求的降低,FP8版本能实现更快的响应时间和更低的能源消耗,有助于企业在生产环境中轻松应对延迟和成本约束。 - 灵活部署: FP8版本降低了私有微调和本地部署的门槛,使团队能够在单节点GPU实例或本地开发机器上扩展Qwen3的功能,而不需要庞大的多GPU集群。 社区和行业的反应: 1. 性能优越: AI教育者Paul Couvert表示,Qwen3-235B-A22B-Instruct-2507在GPQA、AIME25和Arena-Hard v2等多个基准测试中表现出色,甚至超过了规模为其四倍的Kimi-2。 2. 快速影响: AI影响力人士NIK认为Qwen 3-235B只用了一周时间就让Kimi K2变得无关紧要。 3. 部署便利: Hugging Face的产品负责人Jeff Boudier称赞了Qwen3的快速推理、在Azure ML上的1点击部署以及对Mac和Intel平台的本地支持功能。 未来的计划: - 独立的推理模块: 阿里巴巴正在开发专门的推理模型,预计将进一步提升Qwen系列在复杂任务中的表现。 - 代理系统: Qwen路线图显示,未来将推出能够执行长期任务规划的更加智能的代理系统。 - 多模态支持: 预计Qwen2.5-Omni和Qwen-VL等多模态模型的支持功能将进一步拓展。 业内人士认为,Qwen3-235B-A22B-2507的发布不仅仅是性能的提升,更是开源模型逐渐成熟并成为闭源系统的有力竞争对手的信号。其灵活的部署方式、强大的通用性能和企业友好的许可协议,使其在竞争激烈的LLM领域中具有独特的竞争优势。 阿里巴巴是一家领先的中国电子商务巨头,也是全球最大的云计算公司之一。Qwen系列的成功反映了其在人工智能领域的持续投入和技术实力。