17 天前
FrontierMath:面向评估人工智能高级数学推理能力的基准测试
Elliot Glazer, Ege Erdil, Tamay Besiroglu, Diego Chicharro, Evan Chen, Alex Gunning, Caroline Falkman Olsson, Jean-Stanislas Denain, Anson Ho, Emily de Oliveira Santos, Olli Järviniemi, Matthew Barnett, Robert Sandler, Matej Vrzala, Jaime Sevilla, Qiuyu Ren, Elizabeth Pratt, Lionel Levine, Grant Barkley, Natalie Stewart, Bogdan Grechuk, Tetiana Grechuk, Shreepranav Varma Enugandla, Mark Wildon

摘要
我们推出了FrontierMath,这是一个由资深数学家精心设计并严格审校的原创数学问题基准测试集,包含数百道极具挑战性的数学题目。这些问题涵盖了现代数学的大多数主要分支——从数论与实分析中的计算密集型问题,到代数几何与范畴论中的高度抽象问题。解决一道典型题目通常需要相关领域研究人员投入数小时的努力,而高难度题目的解答甚至可能耗时数日。FrontierMath采用全新且未公开发表的题目,并结合自动化验证机制,能够可靠地评估人工智能模型的表现,同时最大限度降低数据泄露风险。目前,最先进的AI模型在该基准上的解题率不足2%,暴露出人工智能能力与数学界专业水平之间巨大的差距。随着人工智能系统逐步向专家级数学能力迈进,FrontierMath为量化其进展提供了一个严谨、可靠的测试平台。