HyperAI

Des chercheurs du MIT, en collaboration avec l'Université du Roi Abdallah des Sciences et de la Technologie (KAUST) et l'entreprise HUMAIN, ont créé et mis à disposition le plus vaste ensemble de données jamais réalisé pour les problèmes mathématiques de niveau olympiade. Intitulé MathNet, ce projet répond à un manque historique : les livrets de problèmes originaux produits chaque année par les pays participants à l'Olympiade Internationale de Mathématiques (IMO) circulaient autrefois de manière informelle avant de disparaître sans être archivés de façon systématique. MathNet comprend plus de 30 000 problèmes et solutions expertes rédigés, couvrant 47 pays, 17 langues et 143 compétitions sur une période de quatre décennies. Avec un volume cinq fois supérieur à la plus grande base de données existante, il se distingue par sa diversité géographique et linguistique, englobant des approches de mathématiques venues du monde entier et pas uniquement des États-Unis ou de la Chine. La collecte a nécessité le repérage de 1 595 volumes PDF, dont une partie essentielle provient des archives manuelles de Navid Safaei, figure reconnue de la communauté IMO. Contrairement aux bases de données issues de forums en ligne souvent informels, MathNet ne contient que des problèmes officiels accompagnés de solutions vérifiées et détaillées, offrant ainsi un signal d'apprentissage beaucoup plus riche. Ce catalogue est conçu pour bénéficier autant aux étudiants qu'aux développeurs d'intelligence artificielle. Pour les élèves préparant seuls des compétitions, il offre désormais un accès centralisé à des exercices de haute qualité provenant de traditions mathématiques variées. Pour la recherche en IA, MathNet sert de benchmark rigoureux pour tester les capacités de raisonnement. Les tests ont révélé que les modèles de pointe, comme GPT-5, atteignent un taux de réussite moyen de 69,3 % sur un échantillon de 6 400 problèmes, échouant donc sur près d'un problème sur trois. La performance chute drastiquement lorsque les problèmes incluent des figures, exposant la raison visuelle comme un point faible persistant chez les modèles les plus avancés. De plus, les modèles open source échouent totalement sur des problèmes dans des langues moins courantes comme le mongol, soulignant un biais linguistique majeur. Au-delà de la résolution de problèmes, MathNet évalue la capacité des IA à reconnaître la structure mathématique sous-jacente de problèmes différents, une tâche complexe même pour les experts humains. Les tests ont montré que les meilleurs modèles n'identifient la bonne correspondance que 5 % du temps lors du premier essai. Enfin, l'ajout d'un problème similaire lors de la génération permet d'améliorer les résultats de seulement 12 points si la référence est pertinente, tandis qu'une référence inutile dégrade les performances dans 22 % des cas. Présenté lors de la conférence ICLR au Brésil, ce travail vise à enrichir les perspectives mathématiques de l'IA tout en favorisant une culture mathématique plus inclusive.

Liens associés

Liens associés

Liens associés

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

Command Palette

MIT ouvre la plus grande base de problèmes mathématiques olympiques

Liens associés

Command Palette

MIT ouvre la plus grande base de problèmes mathématiques olympiques

Liens associés

Command Palette

MIT ouvre la plus grande base de problèmes mathématiques olympiques

Liens associés

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.

CVEvolve, Un Algorithme De Traitement d'images Scientifiques Sans Code Et À Auto-découverte Proposé Par Le Laboratoire National d'Argonne, Possède Des Capacités Complètes Incluant Le Codage, l'auto-vérification Des Résultats Et l'optimisation De La stratégie.