17일 전
FrontierMath: AI의 고급 수학적 추론 능력을 평가하기 위한 벤치마크
Elliot Glazer, Ege Erdil, Tamay Besiroglu, Diego Chicharro, Evan Chen, Alex Gunning, Caroline Falkman Olsson, Jean-Stanislas Denain, Anson Ho, Emily de Oliveira Santos, Olli Järviniemi, Matthew Barnett, Robert Sandler, Matej Vrzala, Jaime Sevilla, Qiuyu Ren, Elizabeth Pratt, Lionel Levine, Grant Barkley, Natalie Stewart, Bogdan Grechuk, Tetiana Grechuk, Shreepranav Varma Enugandla, Mark Wildon

초록
우리는 전문 수학자들이 직접 제작하고 검증한 수백 개의 원본이며 매우 도전적인 수학 문제로 구성된 벤치마크인 FrontierMath를 소개합니다. 이 문제들은 수론과 실해석학과 같이 계산이 복잡한 분야부터 대수기하학과 범주론과 같은 추상적인 주제에 이르기까지 현대 수학의 주요 분야를 포괄합니다. 일반적인 문제를 해결하는 데는 관련 분야의 연구자가 수시간의 노력을 기울여야 하며, 특히 난이도가 높은 문제의 경우 수일에 걸친 노력이 필요합니다. FrontierMath는 새로 작성되고 아직 발표되지 않은 문제들을 사용하며, 자동 검증 기술을 통해 모델의 성능을 신뢰할 수 있게 평가하면서 데이터 오염의 위험을 최소화합니다. 현재 최첨단 AI 모델들은 전체 문제의 2% 미만을 해결할 뿐이며, 이는 AI의 능력과 수학계의 전문성 사이에 여전히 막대한 격차가 있음을 보여줍니다. AI 시스템이 전문가 수준의 수학적 능력을 향해 진전됨에 따라, FrontierMath는 이러한 진보를 정량적으로 측정할 수 있는 엄격한 테스트베드를 제공합니다.