WizardMath : Stimuler le raisonnement mathématique des grands modèles linguistiques grâce à un apprentissage renforcé par Evol-Instruct

Les grands modèles linguistiques (LLM), tels que GPT-4, ont démontré des performances remarquables dans les tâches de traitement du langage naturel (NLP), notamment dans le raisonnement mathématique exigeant. Toutefois, la plupart des modèles open-source existants ne sont entraînés qu’à partir de données massives issues d’internet, sans optimisation spécifique pour les mathématiques. Dans cet article, nous présentons WizardMath, un modèle qui améliore les capacités de raisonnement par chaîne de pensée (CoT) en mathématiques des LLM, sans recourir à des outils Python externes, en appliquant notre méthode proposée, le Reinforcement Learning from Evol-Instruct Feedback (RLEIF), au domaine mathématique. À travers des expériences approfondies sur deux benchmarks de raisonnement mathématique, à savoir GSM8k et MATH, nous mettons en évidence les capacités exceptionnelles de notre modèle. De manière remarquable, WizardMath-Mistral 7B surpasse de manière significative les meilleurs modèles open-source existants, tout en offrant une efficacité accrue en données. En outre, WizardMath 70B dépasse même des modèles de pointe comme GPT-3.5-Turbo, Claude 2, Gemini Pro et une version précoce de GPT-4. Enfin, notre exploration préliminaire souligne le rôle central de l’évolution des instructions et de la supervision du processus dans l’obtention de performances mathématiques exceptionnelles. Pour plus de détails, veuillez consulter : https://github.com/nlpxucan/WizardLM