HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 21 jours

Vers un raisonnement mathématique robuste

Vers un raisonnement mathématique robuste

Résumé

Trouver les bonnes métriques d’orientation (« north-star metrics ») est essentiel pour faire progresser les capacités de raisonnement mathématique des modèles fondamentaux, en particulier compte tenu du fait que les évaluations existantes sont soit trop faciles, soit centrées uniquement sur la production de réponses courtes correctes. Pour remédier à ces limites, nous présentons IMO-Bench, une suite de benchmarks avancés de raisonnement, validés par un panel d’experts de premier plan, et spécifiquement conçus pour cibler le niveau de l’Olympiade internationale de mathématiques (IMO), le plus prestigieux forum pour les jeunes mathématiciens. IMO-AnswerBench évalue d’abord les modèles sur 400 problèmes variés issus des Olympiades, dont les réponses courtes sont vérifiables. IMO-ProofBench constitue une évaluation de niveau supérieur, destinée à évaluer la capacité à rédiger des preuves, incluant à la fois des problèmes de niveau basique et avancé de l’IMO, ainsi que des grilles de notation détaillées pour faciliter l’évaluation automatique. Ces benchmarks ont joué un rôle déterminant dans notre performance historique de niveau or à l’IMO 2025 avec Gemini Deep Think (Luong et Lockhart, 2025). Notre modèle a obtenu 80,0 % sur IMO-AnswerBench et 65,7 % sur le benchmark avancé IMO-ProofBench, dépassant largement les meilleurs modèles non-Gemini de respectivement 6,9 % et 42,4 %. Nous avons également démontré que les systèmes d’évaluation automatique (autograders) basés sur le raisonnement de Gemini corréleront bien avec les évaluations humaines, et avons construit IMO-GradingBench, comprenant 1 000 évaluations humaines de preuves, afin de permettre des progrès ultérieurs dans l’évaluation automatique des réponses longues. Nous espérons que IMO-Bench contribuera à l’avancement du raisonnement mathématique robuste au sein de la communauté, et le mettons à disposition à l’adresse suivante : https://url.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vers un raisonnement mathématique robuste | Articles de recherche | HyperAI