Rapport technique Qwen2.5-Math : Vers un modèle d'expertise mathématique par amélioration auto-suffisante

Dans ce rapport, nous présentons une série de modèles linguistiques à grande échelle spécifiquement conçus pour les mathématiques : Qwen2.5-Math et Qwen2.5-Math-Instruct-1.5B/7B/72B. L’innovation centrale de la série Qwen2.5 réside dans l’intégration du principe d’autopromotion tout au long du processus complet, depuis l’entraînement préalable, en passant par l’entraînement postérieur, jusqu’à l’inférence : (1) Pendant la phase d’entraînement préalable, nous utilisons Qwen2-Math-Instruct pour générer à grande échelle des données mathématiques de haute qualité. (2) Dans la phase d’entraînement postérieur, nous développons un modèle de récompense (RM) en effectuant un échantillonnage massif à partir de Qwen2-Math-Instruct. Ce modèle de récompense est ensuite appliqué à l’évolution itérative des données lors de la fine-tuning supervisée (SFT). Grâce à un modèle SFT renforcé, il devient possible d’entraîner itérativement et de mettre à jour le modèle de récompense, qui à son tour guide la prochaine itération des données pour la SFT. Sur le modèle SFT final, nous utilisons le modèle de récompense ultime pour l’apprentissage par renforcement, aboutissant ainsi au modèle Qwen2.5-Math-Instruct. (3) En outre, durant la phase d’inférence, le modèle de récompense est utilisé pour guider l’échantillonnage, optimisant ainsi les performances du modèle.Qwen2.5-Math-Instruct prend en charge à la fois le chinois et l’anglais, et dispose de capacités avancées de raisonnement mathématique, notamment le raisonnement en chaîne (Chain-of-Thought, CoT) et le raisonnement intégrant des outils (Tool-Integrated Reasoning, TIR). Nous évaluons nos modèles sur dix jeux de données mathématiques en anglais et en chinois, tels que GSM8K, MATH, GaoKao, AMC23 et AIME24, couvrant une large gamme de niveaux de difficulté, allant du niveau primaire jusqu’aux problèmes de compétitions mathématiques.