HyperAIHyperAI
il y a 2 mois

Mesurer la résolution de problèmes mathématiques avec le jeu de données MATH

Dan Hendrycks; Collin Burns; Saurav Kadavath; Akul Arora; Steven Basart; Eric Tang; Dawn Song; Jacob Steinhardt
Mesurer la résolution de problèmes mathématiques avec le jeu de données MATH
Résumé

De nombreuses entreprises intellectuelles nécessitent la résolution de problèmes mathématiques, mais cette compétence dépasse encore les capacités des ordinateurs. Pour évaluer cette capacité dans les modèles d'apprentissage automatique, nous présentons MATH, un nouveau jeu de données composé de 12 500 problèmes mathématiques de concours difficiles. Chaque problème du jeu de données MATH est accompagné d'une solution détaillée étape par étape, qui peut être utilisée pour enseigner aux modèles à générer des dérivations et des explications de réponses. Afin de faciliter les recherches futures et d'améliorer la précision sur MATH, nous contribuons également à un grand ensemble de données pré-entraînement auxiliaire qui aide à enseigner les fondamentaux des mathématiques aux modèles. Bien que nous soyons capables d'augmenter la précision sur MATH, nos résultats montrent que celle-ci reste relativement faible, même avec des modèles Transformer gigantesques. De plus, nous constatons que l'augmentation simple des budgets et du nombre de paramètres des modèles sera irréaliste pour atteindre une forte capacité de raisonnement mathématique si les tendances actuelles se poursuivent. Bien que l'évolution des Transformers résolve automatiquement la plupart des autres tâches basées sur le texte, l'évolution n'est actuellement pas en mesure de résoudre MATH. Pour progresser davantage dans la résolution de problèmes mathématiques, il est probable que nous aurons besoin d'avancées algorithmiques nouvelles provenant de la communauté scientifique plus large.

Mesurer la résolution de problèmes mathématiques avec le jeu de données MATH | Articles de recherche récents | HyperAI