Together AI 推出全开源 DeepSWE:强化学习训练的软件工程代理,SWEBench 成绩领先开放模型
Together AI 和 Agentica 联合发布了 DeepSWE,这是一款基于 Qwen3-32B 大型语言模型的全开源软件工程代理。与其他传统预训练模型不同,DeepSWE 完全通过强化学习(RL)训练,能够在实际开发过程中不断学习和改进,从而更好地适应现实世界的需求。 DeepSWE 的成功源于其采用了一种全新的训练方法——rLLM,这是 Agentica 开发的一种模块化的强化学习框架,专门针对语言代理。该框架使得 DeepSWE 能够从真实工作流中获取经验,而不仅仅是静态数据集中学习。DeepSWE 在训练过程中特别注重解决复杂软件工程任务的能力,如修复错误、完成函数和编辑代码,而不是简单地预测下一个词。 在 SWEBench-Verified 这一评估软件工程代理的最严格基准上,DeepSWE 实现了 59% 的准确率,在 Pass@1 评估(即代理首次尝试解决问题的成功概率)中达到了 42.2% 的出色成绩。这一表现不仅显著超越了之前的所有开源模型,也展示了通过强化学习训练的代理在需要迭代推理和精确输出的任务中的强大潜力。 此次发布的另一个重要亮点是完全透明。Together AI 和 Agentica 不仅开源了 DeepSWE 模型,还公开了整个训练流程,包括 rLLM 框架、R2EGym 数据集以及所有训练配置脚本。这一举措极大地促进了研究的可重复性,鼓励更广泛的研究和开发者社区参与进来,共同推进 DeepSWE 及相关技术的发展。 DeepSWE 的发布标志着软件工程领域的一个重大转变:从构建能够理解语言的模型转向构建能够通过互动学习的代理。传统的大型语言模型虽然在推理方面表现出色,但在适应反馈和持续改进方面往往不足。强化学习不仅提高了模型的初始性能,还能使这些模型随着时间的推移不断完善,适应新的问题分布和领域需求。 此外,DeepSWE 的全开源和模块化设计也为其本地部署提供了可能性。开发者和研究人员可以基于 DeepSWE 和 rLLM 构建自己的代理,以满足不同组织的具体需求,如网络导航、机器人技术或自主研究辅助等。 DeepSWE 的推出是生成式 AI 在软件工程领域的重要里程碑。通过应用强化学习并开放整个训练基础设施,Together AI 为未来的代理开发铺平了道路,使其不仅能够预先训练和部署,还能持续学习和优化。从语言理解到行动导向的代理的转变,将在编程、自动化和智能系统设计等多个领域产生深远的影响。 业内评价与公司背景 DeepSWE 的推出得到了业内专家的高度评价,认为这是一次重大突破,展示了强化学习在提高人工智能代理适应性和实用性的巨大潜力。Together AI 是一家专注于自然语言处理和生成式 AI 的科技创新公司,而 Agentica 则以其在强化学习领域的卓越技术闻名。两者的合作不仅彰显了他们在技术上的先进性,也为未来的技术创新打开了更多可能。