17日前

FrontierMath:AIにおける高度な数学的推論能力を評価するためのベンチマーク

Elliot Glazer, Ege Erdil, Tamay Besiroglu, Diego Chicharro, Evan Chen, Alex Gunning, Caroline Falkman Olsson, Jean-Stanislas Denain, Anson Ho, Emily de Oliveira Santos, Olli Järviniemi, Matthew Barnett, Robert Sandler, Matej Vrzala, Jaime Sevilla, Qiuyu Ren, Elizabeth Pratt, Lionel Levine, Grant Barkley, Natalie Stewart, Bogdan Grechuk, Tetiana Grechuk, Shreepranav Varma Enugandla, Mark Wildon
FrontierMath:AIにおける高度な数学的推論能力を評価するためのベンチマーク
要約

フロンティア数学(FrontierMath)を紹介します。これは、専門の数学者たちによって独自に作成・検証された、数百問に及ぶ極めて難易度の高い数学問題から構成されるベンチマークです。問題の範囲は、数論や実解析における計算的に困難な問題から、代数幾何や圏論に代表される抽象的な問題まで、現代数学の主要分野を網羅しています。一般的な問題を解くには、関連分野の研究者にとって数時間の努力が必要であり、特に上位レベルの問題に至っては数日を要する場合もあります。FrontierMathは、未発表の新規問題と自動検証技術を用いることで、データの汚染リスクを最小限に抑えながら、モデルの性能を信頼性高く評価することが可能になっています。現行の最先端AIモデルでも、問題の正解率は2%未満にとどまっており、AIの能力と数学者コミュニティの実力の間には依然として広大な格差が存在することが明らかになりました。AIシステムが専門家レベルの数学的能力に近づくにつれ、FrontierMathはその進歩を定量的に評価するための厳密な検証環境を提供するものとなっています。

FrontierMath:AIにおける高度な数学的推論能力を評価するためのベンチマーク | 最新論文 | HyperAI超神経