
摘要
代码性能优化在实际软件工程中至关重要,对于生产级别的系统尤为关键。尽管大型语言模型(LLMs)在代码生成和漏洞修复方面展示了令人印象深刻的能力,但它们在仓库级别提升代码性能方面的熟练程度仍 largely unexplored(很大程度上未被探索)。为了解决这一空白,我们引入了 SWE-Perf,这是首个专门设计用于系统评估大型语言模型在真实仓库环境中进行代码性能优化任务的基准测试。SWE-Perf 包含 140 个精心挑选的实例,每个实例均源自流行 GitHub 仓库中的性能改进拉取请求。每个基准测试实例包括相关的代码库、目标函数、性能相关测试、专家编写的补丁以及可执行环境。通过对涵盖文件级和仓库级方法(例如无代理方法和 OpenHands 方法)的代表性方法进行全面评估,我们揭示了现有大型语言模型与专家级优化性能之间存在显著的能力差距,突显了这一新兴领域中的重要研究机会。