SWE-bench Verified 代码生成评估基准数据集
* 该数据集支持在线使用,点击此处跳转。
数据集简介
该基准是对现有 SWE-bench 的改进版本(子集),旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。
为了提高 SWE-bench 的稳健性和可靠性,OpenAI 启动了一项由专业软件开发人员进行的人工注释活动,对 SWE-bench 测试集中的每个样本进行了筛查,以确保单元测试的范围适当,问题描述清晰明确。
他们与 SWE-bench 的作者们一起发布了 SWE-bench Verified:这是 SWE-bench 原始测试集的一个子集,包含 500 个样本,这些样本已经通过了人工注释者的验证。这个版本取代了原来的 SWE-bench 和 SWE-bench Lite 测试集。
在 SWE-bench Verified 上,GPT-4o 解决了 33.2% 的样本,而表现最佳的开源代理框架 Agentless 的得分翻了一番,达到 16% 。
SWE-bench_Verified.torrent
做种 2正在下载 0已完成 103总下载次数 106