HyperAI超神经

SWE-Factory:您的自动化问题解决训练数据和评估基准工厂

Lianghong Guo, Yanlin Wang, Caihua Li, Pengyu Yang, Jiachi Chen, Wei Tao, Yingtian Zou, Duyu Tang, Zibin Zheng
发布日期: 6/15/2025
SWE-Factory:您的自动化问题解决训练数据和评估基准工厂
摘要

构建大规模的GitHub问题解决数据集对于训练和评估大型语言模型(LLMs)的软件工程能力至关重要。然而,创建此类基准的传统过程非常具有挑战性和劳动密集型,尤其是在设置评估环境、评分测试结果和验证任务实例的阶段。在本文中,我们提出了SWE-Factory,一个旨在解决这些挑战的自动化流水线。为了解决这些问题,我们的流水线集成了三个核心自动化组件。首先,我们引入了SWE-Builder,一个多代理系统,用于自动构建评估环境,该系统采用了四个专门的代理,在协作和迭代循环中工作,并利用环境内存池来提高效率。其次,我们提出了一种基于退出代码的标准评分方法,消除了手动编写自定义解析器的需求。最后,我们通过这些可靠的退出代码信号实现了自动化的fail2pass验证过程。实验结果显示,在四种编程语言的671个问题上,我们的流水线能够有效构建有效的任务实例;例如,使用GPT-4.1-mini时,SWE-Builder以每个实例0.045的成本构建了269个有效实例;而使用Gemini-2.5-flash时,则以最低成本0.024达到了相当的性能。此外,我们证明了基于退出代码的评分方法与人工检查相比达到了100%的准确性,并且我们的自动化fail2pass验证达到了0.92的精确度和1.00的召回率。我们希望这一自动化流水线能够加速大规模、高质量GitHub问题解决数据集的收集工作,从而促进训练和评估的发展。我们的代码和数据集已发布在 https://github.com/DeepSoftwareAnalytics/swe-factory。