HyperAIHyperAI
il y a 18 jours

Orca-Math : Libérer le potentiel des SLM dans les mathématiques du primaire

Arindam Mitra, Hamed Khanpour, Corby Rosset, Ahmed Awadallah
Orca-Math : Libérer le potentiel des SLM dans les mathématiques du primaire
Résumé

La résolution de problèmes mathématiques par des modèles linguistiques petits (SLM) est depuis longtemps reconnue comme une tâche complexe. Une étude récente a émis l'hypothèse que la taille minimale de modèle nécessaire pour atteindre une précision supérieure à 80 % sur le benchmark GSM8K est de 34 milliards de paramètres. Pour atteindre un niveau de performance similaire avec des modèles plus petits, les chercheurs recourent fréquemment à l'entraînement des SLM afin qu'ils génèrent du code Python ou à l'utilisation d'outils visant à éviter les erreurs de calcul. En outre, ils recourent à l'ensemblage (ensembling), combinant les sorties de jusqu'à 100 exécutions du modèle afin d’obtenir un résultat plus précis. La sélection des résultats s’effectue par consensus, vote majoritaire ou via un modèle vérificateur distinct, utilisé en complément du SLM. Bien que l’ensemblage apporte une amélioration substantielle de la précision, il entraîne une augmentation significative des coûts liés à plusieurs appels au modèle (par exemple, Phi-GSM utilise les 48 meilleures réponses pour faire passer la performance de 68,2 à 81,5).Dans ce travail, nous présentons Orca-Math, un SLM de 7 milliards de paramètres basé sur Mistral-7B, qui atteint 86,81 % sur GSM8K sans nécessiter d’appels multiples au modèle, ni l’utilisation de vérificateurs, d’exécution de code ou d’outils externes. Notre approche repose sur les éléments clés suivants : (1) un jeu de données synthétiques de haute qualité comprenant 200 000 problèmes mathématiques, généré à l’aide d’un cadre multi-agents où les agents collaborent pour produire les données ; (2) une technique d’apprentissage itératif permettant au SLM de s’entraîner à résoudre des problèmes, de recevoir un retour sur ses solutions et d’apprendre à partir de paires de préférences intégrant à la fois les solutions du SLM et les commentaires de feedback. Lorsqu’il est entraîné uniquement par Fine-Tuning supervisé, Orca-Math atteint 81,50 % sur le métrique pass@1 de GSM8K. Grâce à l’apprentissage itératif par préférences, Orca-Math atteint 86,81 % pass@1. Orca-Math dépasse ainsi les performances de modèles bien plus volumineux tels que LLAMA-2-70B, WizardMath-70B, Gemini-Pro et ChatGPT-3.5. Il surpasse également significativement d’autres modèles plus petits tout en utilisant une quantité de données bien moindre (des centaines de milliers de problèmes contre des millions).

Orca-Math : Libérer le potentiel des SLM dans les mathématiques du primaire | Articles de recherche récents | HyperAI