HyperAIHyperAI

Command Palette

Search for a command to run...

Vers un raisonnement mathématique robuste

Résumé

Trouver les bonnes métriques d’orientation (« north-star metrics ») est essentiel pour faire progresser les capacités de raisonnement mathématique des modèles fondamentaux, en particulier compte tenu du fait que les évaluations existantes sont soit trop faciles, soit centrées uniquement sur la production de réponses courtes correctes. Pour remédier à ces limites, nous présentons IMO-Bench, une suite de benchmarks avancés de raisonnement, validés par un panel d’experts de premier plan, et spécifiquement conçus pour cibler le niveau de l’Olympiade internationale de mathématiques (IMO), le plus prestigieux forum pour les jeunes mathématiciens. IMO-AnswerBench évalue d’abord les modèles sur 400 problèmes variés issus des Olympiades, dont les réponses courtes sont vérifiables. IMO-ProofBench constitue une évaluation de niveau supérieur, destinée à évaluer la capacité à rédiger des preuves, incluant à la fois des problèmes de niveau basique et avancé de l’IMO, ainsi que des grilles de notation détaillées pour faciliter l’évaluation automatique. Ces benchmarks ont joué un rôle déterminant dans notre performance historique de niveau or à l’IMO 2025 avec Gemini Deep Think (Luong et Lockhart, 2025). Notre modèle a obtenu 80,0 % sur IMO-AnswerBench et 65,7 % sur le benchmark avancé IMO-ProofBench, dépassant largement les meilleurs modèles non-Gemini de respectivement 6,9 % et 42,4 %. Nous avons également démontré que les systèmes d’évaluation automatique (autograders) basés sur le raisonnement de Gemini corréleront bien avec les évaluations humaines, et avons construit IMO-GradingBench, comprenant 1 000 évaluations humaines de preuves, afin de permettre des progrès ultérieurs dans l’évaluation automatique des réponses longues. Nous espérons que IMO-Bench contribuera à l’avancement du raisonnement mathématique robuste au sein de la communauté, et le mettons à disposition à l’adresse suivante : https://url.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vers un raisonnement mathématique robuste | Articles | HyperAI