HyperAIHyperAI
il y a 17 jours

FrontierMath : un benchmark pour évaluer le raisonnement mathématique avancé dans les IA

Elliot Glazer, Ege Erdil, Tamay Besiroglu, Diego Chicharro, Evan Chen, Alex Gunning, Caroline Falkman Olsson, Jean-Stanislas Denain, Anson Ho, Emily de Oliveira Santos, Olli Järviniemi, Matthew Barnett, Robert Sandler, Matej Vrzala, Jaime Sevilla, Qiuyu Ren, Elizabeth Pratt, Lionel Levine, Grant Barkley, Natalie Stewart, Bogdan Grechuk, Tetiana Grechuk, Shreepranav Varma Enugandla, Mark Wildon
FrontierMath : un benchmark pour évaluer le raisonnement mathématique avancé dans les IA
Résumé

Nous introduisons FrontierMath, un benchmark composé de centaines de problèmes mathématiques originaux et exceptionnellement difficiles, conçus et validés par des mathématiciens experts. Ces questions couvrent la majeure partie des branches principales des mathématiques modernes — allant de problèmes fortement intensifs en calcul en théorie des nombres et en analyse réelle à des questions abstraites en géométrie algébrique et en théorie des catégories. La résolution d’un problème typique exige plusieurs heures de travail d’un chercheur spécialisé dans la branche correspondante, et pour les problèmes les plus avancés, plusieurs jours. FrontierMath repose sur des problèmes nouveaux et inédits, combinés à une vérification automatisée, afin d’évaluer de manière fiable les modèles tout en minimisant le risque de contamination des données. Les meilleurs modèles d’IA actuels résolvent moins de 2 % des problèmes, révélant un écart considérable entre les capacités actuelles de l’IA et celles de la communauté mathématique. À mesure que les systèmes d’IA évoluent vers des compétences mathématiques d’expert, FrontierMath offre un terrain d’expérimentation rigoureux permettant de mesurer de façon quantitative leurs progrès.

FrontierMath : un benchmark pour évaluer le raisonnement mathématique avancé dans les IA | Articles de recherche récents | HyperAI