ProcessBench 数学推理基准数据集
ProcessBench 是一个专注于识别数学推理过程中错误的基准数据集,旨在衡量语言模型在数学推理中识别错误步骤的能力,由阿里巴巴集团 Qwen 团队于 2024 年推出,相关论文成果为「ProcessBench: Identifying Process Errors in Mathematical Reasoning」。
此数据集包含了 3.4k 个测试实例,专注于竞赛及奥林匹克难度的数学题目。每个实例都配备了分步解答,并由领域专家精确标出错误所在。构建该数据集时,研究团队从多个公开的数据源中精选题目,借助各类开源语言模型产出解答方案,最终经由专家审核以保障数据的高标准质量。

ProcessBench.torrent
做种 2正在下载 0已完成 42总下载次数 39