HyperAIHyperAI

Command Palette

Search for a command to run...

Mesurer la résolution de problèmes mathématiques avec le jeu de données MATH

Dan Hendrycks Collin Burns Saurav Kadavath Akul Arora Steven Basart Eric Tang Dawn Song Jacob Steinhardt

Résumé

De nombreuses entreprises intellectuelles nécessitent la résolution de problèmes mathématiques, mais cette compétence dépasse encore les capacités des ordinateurs. Pour évaluer cette capacité dans les modèles d'apprentissage automatique, nous présentons MATH, un nouveau jeu de données composé de 12 500 problèmes mathématiques de concours difficiles. Chaque problème du jeu de données MATH est accompagné d'une solution détaillée étape par étape, qui peut être utilisée pour enseigner aux modèles à générer des dérivations et des explications de réponses. Afin de faciliter les recherches futures et d'améliorer la précision sur MATH, nous contribuons également à un grand ensemble de données pré-entraînement auxiliaire qui aide à enseigner les fondamentaux des mathématiques aux modèles. Bien que nous soyons capables d'augmenter la précision sur MATH, nos résultats montrent que celle-ci reste relativement faible, même avec des modèles Transformer gigantesques. De plus, nous constatons que l'augmentation simple des budgets et du nombre de paramètres des modèles sera irréaliste pour atteindre une forte capacité de raisonnement mathématique si les tendances actuelles se poursuivent. Bien que l'évolution des Transformers résolve automatiquement la plupart des autres tâches basées sur le texte, l'évolution n'est actuellement pas en mesure de résoudre MATH. Pour progresser davantage dans la résolution de problèmes mathématiques, il est probable que nous aurons besoin d'avancées algorithmiques nouvelles provenant de la communauté scientifique plus large.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp