14 days ago
Skywork-SWE:揭示大型语言模型中软件工程的数据规模定律
Liang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou

摘要
软件工程(SWE)最近成为下一代大型语言模型(LLM)代理的重要测试平台,要求在两个关键维度上具备内在能力:持续迭代的问题解决(例如,超过50轮交互)和长上下文依赖解析(例如,超过32k个标记)。然而,SWE中的数据整理过程仍然极其耗时,因为它严重依赖于手动注释来过滤代码文件并设置专用运行环境以执行和验证单元测试。因此,大多数现有的数据集仅包含几千个来自GitHub的实例。为此,我们提出了一种增量式、自动化的数据整理管道,系统地扩展了SWE数据集的数量和多样性。我们的数据集包括来自2,531个不同GitHub仓库的10,169个真实世界的Python任务实例,每个实例都附有自然语言描述的任务和用于自动化单元测试验证的专用运行环境镜像。我们从提议的SWE数据集中精心整理了超过8,000条成功运行验证的训练轨迹。在这些轨迹上微调Skywork-SWE模型时,我们发现了一个显著的数据规模效应:随着数据量的增加,训练模型在软件工程能力方面的性能持续提升,没有显示出饱和迹象。值得注意的是,我们的Skywork-SWE模型在未使用验证器或多次回滚的情况下,在SWE-bench Verified基准上达到了38.0%的pass@1准确率,成为基于Qwen2.5-Coder-32B和OpenHands代理框架构建的LLM中的新最先进水平(SOTA)。此外,通过引入测试时间缩放技术,性能进一步提高到47.0%的准确率,超过了之前参数量小于32B模型的最佳结果。我们发布了Skywork-SWE-32B模型检查点以加速未来的研究。