HyperAI超神经

ProcessBench 数学推理基准数据集

日期

5 个月前

大小

1.92 MB

机构

发布地址

huggingface.co

ProcessBench 是一个专注于识别数学推理过程中错误的基准数据集,旨在衡量语言模型在数学推理中识别错误步骤的能力,由阿里巴巴集团 Qwen 团队于 2024 年推出,相关论文成果为「ProcessBench: Identifying Process Errors in Mathematical Reasoning」。

此数据集包含了 3.4k 个测试实例,专注于竞赛及奥林匹克难度的数学题目。每个实例都配备了分步解答,并由领域专家精确标出错误所在。构建该数据集时,研究团队从多个公开的数据源中精选题目,借助各类开源语言模型产出解答方案,最终经由专家审核以保障数据的高标准质量。

PROCESSBENCH 的数据示例。标签 2 表示最早的错误发生在第 2 步(从 0 开始索引)。对于没有错误的测试用例,标签为-1 。
ProcessBench.torrent
做种 2正在下载 0已完成 42总下载次数 39
  • ProcessBench/
    • README.md
      1.58 KB
    • README.txt
      3.15 KB
      • data/
        • ProcessBench.zip
          1.92 MB