HyperAIHyperAI

Command Palette

Search for a command to run...

WizardMath : Stimuler le raisonnement mathématique des grands modèles linguistiques grâce à un apprentissage renforcé par Evol-Instruct

Résumé

Les grands modèles linguistiques (LLM), tels que GPT-4, ont démontré des performances remarquables dans les tâches de traitement du langage naturel (NLP), notamment dans le raisonnement mathématique exigeant. Toutefois, la plupart des modèles open-source existants ne sont entraînés qu’à partir de données massives issues d’internet, sans optimisation spécifique pour les mathématiques. Dans cet article, nous présentons WizardMath, un modèle qui améliore les capacités de raisonnement par chaîne de pensée (CoT) en mathématiques des LLM, sans recourir à des outils Python externes, en appliquant notre méthode proposée, le Reinforcement Learning from Evol-Instruct Feedback (RLEIF), au domaine mathématique. À travers des expériences approfondies sur deux benchmarks de raisonnement mathématique, à savoir GSM8k et MATH, nous mettons en évidence les capacités exceptionnelles de notre modèle. De manière remarquable, WizardMath-Mistral 7B surpasse de manière significative les meilleurs modèles open-source existants, tout en offrant une efficacité accrue en données. En outre, WizardMath 70B dépasse même des modèles de pointe comme GPT-3.5-Turbo, Claude 2, Gemini Pro et une version précoce de GPT-4. Enfin, notre exploration préliminaire souligne le rôle central de l’évolution des instructions et de la supervision du processus dans l’obtention de performances mathématiques exceptionnelles. Pour plus de détails, veuillez consulter : https://github.com/nlpxucan/WizardLM


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp