OpenMathReasoning 数学推理数据集
OpenMathReasoning 数据集是由 NVIDIA 于 2025 年发布的全球首个专注于数学推理的大规模高质量数据集,相关论文成果为:「AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset」,旨在助力 OpenMath-Nemotron 系列模型在数学推理领域取得卓越成效。
该数据集包含多维度的精细标注,包括数学问题类型标签、详细解题步骤、问题难度等级划分等。这些源于数学专业领域与在线社区的高质量数据,为深入研究数学推理过程、优化数学解题模型提供了坚实有力的支撑,并推动如智能数学辅导系统、数学竞赛辅助工具、科研计算自动化等相关产业的蓬勃发展。
该数据集包含:
- 来自 AoPS 论坛的 540K 个独特数学问题,
- 3.2M 长思路链(CoT)解决方案
- 1.7M 长的工具集成推理(TIR)解决方案
- 566K 个样本从众多候选方案中选出最有希望的解决方案(GenSelect)