13 天前

RES-Q:在仓库规模下评估代码编辑大型语言模型系统

Beck LaBash, August Rosedale, Alex Reents, Lucas Negritto, Colin Wiel
RES-Q:在仓库规模下评估代码编辑大型语言模型系统
摘要

大型语言模型(LLMs)的指令遵循能力催生了一类基于LLM的系统,能够处理如大规模代码仓库编辑等复杂任务。然而,由于LLM对提示(prompting)变化表现出高度敏感且难以预测的行为,亟需构建稳健的评估工具以推动此类系统的持续迭代。为此,我们提出了RES-Q——一个基于自然语言指令的基准测试框架,用于评估Repository Editing Systems(代码仓库编辑系统)。RES-Q包含100个由真实GitHub提交记录手工构建的仓库编辑任务。给定一条编辑指令与一个代码仓库,RES-Q评估LLM系统在理解指令、导航仓库以获取相关信息,并生成符合指定要求的正确编辑方案等方面的综合能力。我们认为,这种评估方式能够有效克服传统基准测试的局限性,提供对模型能力更为全面和深入的衡量。我们在Qurrent OS——我们开发的语言智能体(language agent)开发平台之上构建了仓库编辑系统,并在此框架下评估了多种前沿LLM作为语言智能体的表现。尽管这些模型在HumanEval基准上的pass@1性能差异仅为1%,但我们发现Claude Sonnet 3.5在RES-Q上的表现比GPT-4o高出12% pass@1,这表明RES-Q具备在传统基准趋于饱和的背景下,有效区分不同模型能力的潜力。此外,我们进一步探讨了模型的token使用效率、与现有基准之间的性能关联性,以及闭源与开源LLM之间存在的显著差异。相关代码与数据集已公开,可通过 https://github.com/Qurrent-AI/RES-Q 获取。

RES-Q:在仓库规模下评估代码编辑大型语言模型系统 | 最新论文 | HyperAI超神经