MathX-5M 数学推理数据集
MathX 是一个数学推理数据集,专为基于指令的模型调优以及增强思维能力的现有模型的微调而设计。该数据集是迄今为止规模最大、筛选最全面的公开数学推理数据语料库。
该数据集包括 500 万个精心筛选的分步思维数据示例,每个示例包含:问题陈述、详细推理过程、已验证的正确解决方案。示例涵盖算术与数论、代数与多项式数学、几何学与三角学、微积分与分析学领域。
问题复杂性分布
- 基础水平(30%):基本数学概念和运算
- 中级(30%):需要推理链的多步骤问题
- 高级(40%):复杂的数学挑战和证明
数据集特点:
- 多样性:全面涵盖从基础算术到高等微积分的数学领域
- 质量:多阶段筛选与验证流程
- 推理:包含详细数学思路的分步解答
- 准确性:经过强化学习验证且通过正确性校验的答案