2 个月前
使用MATH数据集测量数学问题解决能力
Dan Hendrycks; Collin Burns; Saurav Kadavath; Akul Arora; Steven Basart; Eric Tang; Dawn Song; Jacob Steinhardt

摘要
许多智力活动都需要解决数学问题,但这一技能仍然超出了计算机的能力范围。为了评估机器学习模型在这一方面的能力,我们引入了MATH,这是一个包含12,500道具有挑战性的竞赛数学题的新数据集。MATH中的每个问题都配有完整的逐步解决方案,可用于训练模型生成答案推导过程和解释。为了促进未来的研究并提高在MATH上的准确性,我们还贡献了一个大型辅助预训练数据集,该数据集有助于教授模型数学的基础知识。尽管我们能够在MATH上提高准确性,但结果显示即使使用巨大的Transformer模型,准确率仍然相对较低。此外,我们发现如果当前的扩展趋势继续下去,仅仅增加预算和模型参数数量对于实现强大的数学推理能力将是不切实际的。虽然扩展Transformer模型能够自动解决大多数其他基于文本的任务,但在目前的情况下,扩展并不能解决MATH问题。要在这方面取得更多进展,可能需要来自更广泛研究社区的新算法突破。