HyperAIHyperAI

Command Palette

Search for a command to run...

Rapport technique Qwen2.5-Math : Vers un modèle d'expertise mathématique par amélioration auto-suffisante

Résumé

Dans ce rapport, nous présentons une série de modèles linguistiques à grande échelle spécifiquement conçus pour les mathématiques : Qwen2.5-Math et Qwen2.5-Math-Instruct-1.5B/7B/72B. L’innovation centrale de la série Qwen2.5 réside dans l’intégration du principe d’autopromotion tout au long du processus complet, depuis l’entraînement préalable, en passant par l’entraînement postérieur, jusqu’à l’inférence : (1) Pendant la phase d’entraînement préalable, nous utilisons Qwen2-Math-Instruct pour générer à grande échelle des données mathématiques de haute qualité. (2) Dans la phase d’entraînement postérieur, nous développons un modèle de récompense (RM) en effectuant un échantillonnage massif à partir de Qwen2-Math-Instruct. Ce modèle de récompense est ensuite appliqué à l’évolution itérative des données lors de la fine-tuning supervisée (SFT). Grâce à un modèle SFT renforcé, il devient possible d’entraîner itérativement et de mettre à jour le modèle de récompense, qui à son tour guide la prochaine itération des données pour la SFT. Sur le modèle SFT final, nous utilisons le modèle de récompense ultime pour l’apprentissage par renforcement, aboutissant ainsi au modèle Qwen2.5-Math-Instruct. (3) En outre, durant la phase d’inférence, le modèle de récompense est utilisé pour guider l’échantillonnage, optimisant ainsi les performances du modèle.Qwen2.5-Math-Instruct prend en charge à la fois le chinois et l’anglais, et dispose de capacités avancées de raisonnement mathématique, notamment le raisonnement en chaîne (Chain-of-Thought, CoT) et le raisonnement intégrant des outils (Tool-Integrated Reasoning, TIR). Nous évaluons nos modèles sur dix jeux de données mathématiques en anglais et en chinois, tels que GSM8K, MATH, GaoKao, AMC23 et AIME24, couvrant une large gamme de niveaux de difficulté, allant du niveau primaire jusqu’aux problèmes de compétitions mathématiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp