DeepMath-103K 数学推理数据集
DeepMath-103K 是由腾讯以及上海交通大学于 2025 年联合发布的一个用于训练和评估数学推理模型的大规模数据集,相关论文成果为「DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning」。
该数据集重点关注 5-9 级难度的数学问题,涵盖代数、微积分、数论、几何、概率、离散数学等多个领域,侧重挑战复杂推理能力,该数据集还通过语义匹配针对常见基准进行了细致的去污染处理,最大限度减少测试集泄露并促进模型公平评估。
