FrontierMath : un benchmark pour évaluer le raisonnement mathématique avancé dans les IA

Nous introduisons FrontierMath, un benchmark composé de centaines de problèmes mathématiques originaux et exceptionnellement difficiles, conçus et validés par des mathématiciens experts. Ces questions couvrent la majeure partie des branches principales des mathématiques modernes — allant de problèmes fortement intensifs en calcul en théorie des nombres et en analyse réelle à des questions abstraites en géométrie algébrique et en théorie des catégories. La résolution d’un problème typique exige plusieurs heures de travail d’un chercheur spécialisé dans la branche correspondante, et pour les problèmes les plus avancés, plusieurs jours. FrontierMath repose sur des problèmes nouveaux et inédits, combinés à une vérification automatisée, afin d’évaluer de manière fiable les modèles tout en minimisant le risque de contamination des données. Les meilleurs modèles d’IA actuels résolvent moins de 2 % des problèmes, révélant un écart considérable entre les capacités actuelles de l’IA et celles de la communauté mathématique. À mesure que les systèmes d’IA évoluent vers des compétences mathématiques d’expert, FrontierMath offre un terrain d’expérimentation rigoureux permettant de mesurer de façon quantitative leurs progrès.