日期

2 年前

大小

1.65 MB

数据集组织

标签

数据集简介

该基准是对现有 SWE-bench 的改进版本（子集），旨在更可靠地评估 AI 模型解决现实世界软件问题的能力。为了提高 SWE-bench 的稳健性和可靠性，OpenAI 启动了一项由专业软件开发人员进行的人工注释活动，对 SWE-bench 测试集中的每个样本进行了筛查，以确保单元测试的范围适当，问题描述清晰明确。他们与 SWE-bench 的作者们一起发布了 SWE-bench Verified：这是 SWE-bench 原始测试集的一个子集，包含 500 个样本，这些样本已经通过了人工注释者的验证。这个版本取代了原来的 SWE-bench 和 SWE-bench Lite 测试集。在 SWE-bench Verified 上，GPT-4o 解决了 33.2% 的样本，而表现最佳的开源代理框架 Agentless 的得分翻了一番，达到 16% 。

SWE-bench_Verified.torrent

做种 1正在下载 0已完成 240总下载量 343

SWE-bench_Verified/
- README.md
  1.68 KB
- README.txt
  3.37 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集

在 Discord 上讨论

日期

2 年前

大小

1.65 MB

数据集组织

标签

数据集简介

SWE-bench_Verified.torrent

做种 1正在下载 0已完成 240总下载量 343

SWE-bench_Verified/
- README.md
  1.68 KB
- README.txt
  3.37 KB

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

数据集简介

用 AI 构建 AI

HyperAI Newsletters

数据集简介

相关数据集

CL-bench 上下文学习评估基准数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

数据集简介

相关数据集

CL-bench 上下文学习评估基准数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

CL-bench 上下文学习评估基准数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

相关数据集

CL-bench 上下文学习评估基准数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

Command Palette

SWE-bench Verified 代码生成评估基准数据集

数据集简介

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SWE-bench Verified 代码生成评估基准数据集

数据集简介

相关数据集

CL-bench 上下文学习评估基准数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

SWE-bench Verified 代码生成评估基准数据集

数据集简介

相关数据集

CL-bench 上下文学习评估基准数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

CL-bench 上下文学习评估基准数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集

相关数据集

CL-bench 上下文学习评估基准数据集

GroundingME 复杂场景理解评测数据集

LongBench-Pro 长上下文综合评测数据集