Command Palette
Search for a command to run...

Résumé
Trouver les bonnes métriques d’orientation (« north-star metrics ») est essentiel pour faire progresser les capacités de raisonnement mathématique des modèles fondamentaux, en particulier compte tenu du fait que les évaluations existantes sont soit trop faciles, soit centrées uniquement sur la production de réponses courtes correctes. Pour remédier à ces limites, nous présentons IMO-Bench, une suite de benchmarks avancés de raisonnement, validés par un panel d’experts de premier plan, et spécifiquement conçus pour cibler le niveau de l’Olympiade internationale de mathématiques (IMO), le plus prestigieux forum pour les jeunes mathématiciens. IMO-AnswerBench évalue d’abord les modèles sur 400 problèmes variés issus des Olympiades, dont les réponses courtes sont vérifiables. IMO-ProofBench constitue une évaluation de niveau supérieur, destinée à évaluer la capacité à rédiger des preuves, incluant à la fois des problèmes de niveau basique et avancé de l’IMO, ainsi que des grilles de notation détaillées pour faciliter l’évaluation automatique. Ces benchmarks ont joué un rôle déterminant dans notre performance historique de niveau or à l’IMO 2025 avec Gemini Deep Think (Luong et Lockhart, 2025). Notre modèle a obtenu 80,0 % sur IMO-AnswerBench et 65,7 % sur le benchmark avancé IMO-ProofBench, dépassant largement les meilleurs modèles non-Gemini de respectivement 6,9 % et 42,4 %. Nous avons également démontré que les systèmes d’évaluation automatique (autograders) basés sur le raisonnement de Gemini corréleront bien avec les évaluations humaines, et avons construit IMO-GradingBench, comprenant 1 000 évaluations humaines de preuves, afin de permettre des progrès ultérieurs dans l’évaluation automatique des réponses longues. Nous espérons que IMO-Bench contribuera à l’avancement du raisonnement mathématique robuste au sein de la communauté, et le mettons à disposition à l’adresse suivante : https://url.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.