il y a 3 mois

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

Résumé

Trouver les bonnes métriques d’orientation (« north-star metrics ») est essentiel pour faire progresser les capacités de raisonnement mathématique des modèles fondamentaux, en particulier compte tenu du fait que les évaluations existantes sont soit trop faciles, soit centrées uniquement sur la production de réponses courtes correctes. Pour remédier à ces limites, nous présentons IMO-Bench, une suite de benchmarks avancés de raisonnement, validés par un panel d’experts de premier plan, et spécifiquement conçus pour cibler le niveau de l’Olympiade internationale de mathématiques (IMO), le plus prestigieux forum pour les jeunes mathématiciens. IMO-AnswerBench évalue d’abord les modèles sur 400 problèmes variés issus des Olympiades, dont les réponses courtes sont vérifiables. IMO-ProofBench constitue une évaluation de niveau supérieur, destinée à évaluer la capacité à rédiger des preuves, incluant à la fois des problèmes de niveau basique et avancé de l’IMO, ainsi que des grilles de notation détaillées pour faciliter l’évaluation automatique. Ces benchmarks ont joué un rôle déterminant dans notre performance historique de niveau or à l’IMO 2025 avec Gemini Deep Think (Luong et Lockhart, 2025). Notre modèle a obtenu 80,0 % sur IMO-AnswerBench et 65,7 % sur le benchmark avancé IMO-ProofBench, dépassant largement les meilleurs modèles non-Gemini de respectivement 6,9 % et 42,4 %. Nous avons également démontré que les systèmes d’évaluation automatique (autograders) basés sur le raisonnement de Gemini corréleront bien avec les évaluations humaines, et avons construit IMO-GradingBench, comprenant 1 000 évaluations humaines de preuves, afin de permettre des progrès ultérieurs dans l’évaluation automatique des réponses longues. Nous espérons que IMO-Bench contribuera à l’avancement du raisonnement mathématique robuste au sein de la communauté, et le mettons à disposition à l’adresse suivante : https://url.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Vers un raisonnement mathématique robuste | Articles | HyperAI

Command Palette

Vers un raisonnement mathématique robuste

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Vers un raisonnement mathématique robuste

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Vers un raisonnement mathématique robuste

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu

Thang Luong Dawsen Hwang Hoang H. Nguyen Golnaz Ghiasi Yuri Chervonyi Insuk Seo Junsu Kim Garrett Bingham Jonathan LeeSwaroop Mishra Alex ZhaiClara Huiyi Hu