HyperAI
il y a 9 jours

MiroMind-M1 : Une avancée en raisonnement mathématique via l'optimisation multi-étapes de politique contextuelle

Xingxuan Li, Yao Xiao, Dianwen Ng, Hai Ye, Yue Deng, Xiang Lin, Bin Wang, Zhanfeng Mo, Chong Zhang, Yueyi Zhang, Zonglin Yang, Ruilin Li, Lei Lei, Shihao Xu, Han Zhao, Weiling Chen, Feng Ji, Lidong Bing
MiroMind-M1 : Une avancée en raisonnement mathématique via l'optimisation multi-étapes de politique contextuelle
Résumé

Les grands modèles de langage ont récemment évolué, passant de la génération de textes fluents à une raisonnement avancé dans divers domaines, ce qui a donné naissance aux modèles de langage de raisonnement (RLM). Parmi ces domaines, le raisonnement mathématique constitue un benchmark représentatif, car il exige une logique multi-étapes précise et un raisonnement abstrait, qui peuvent être généralisés à d'autres tâches. Bien que des RLM à code source fermé tels que GPT-o3 démontrent des capacités impressionnantes en matière de raisonnement, leur nature propriétaire limite la transparence et la reproductibilité. Bien qu'un grand nombre de projets open source visent à combler cet écart, la plupart d'entre eux manquent d'ouverture suffisante en omettant des ressources critiques telles que les jeux de données et les configurations détaillées d'entraînement, ce qui entrave la reproductibilité. Afin de contribuer à une plus grande transparence dans le développement des RLM, nous introduisons la série MiroMind-M1, un ensemble de RLM totalement open source basés sur le noyau Qwen-2.5, dont les performances sont égales ou supérieures à celles des RLM open source existants. Spécifiquement, nos modèles sont entraînés en deux étapes : une SFT (Supervised Fine-Tuning) sur un corpus soigneusement sélectionné comprenant 719 000 problèmes de raisonnement mathématique avec des trajectoires de pensée détaillées (CoT, Chain-of-Thought) vérifiées, suivie d'une RLVR (Reinforcement Learning with Verified Rewards) sur 62 000 problèmes difficiles et vérifiables. Pour renforcer la robustesse et l'efficacité du processus RLVR, nous introduisons une optimisation de politique multi-étapes orientée contexte (Context-Aware Multi-Stage Policy Optimization), un algorithme qui intègre l'entraînement progressif en longueur avec une pénalité adaptative pour la répétition, afin d'encourager un entraînement de renforcement avec prise en compte du contexte. Notre modèle atteint des performances de pointe ou compétitives, ainsi qu'une efficacité supérieure en termes de tokens, par rapport aux modèles open source Qwen-2.5 de 7B et 32B sur les benchmarks AIME24, AIME25 et MATH. Pour faciliter la reproductibilité, nous libérons l'ensemble complet : les modèles (MiroMind-M1-SFT-7B, MiroMind-M1-RL-7B, MiroMind-M1-RL-32B), les jeux de données (MiroMind-M1-SFT-719K, MiroMind-M1-RL-62K), ainsi que toutes les configurations d'entraînement et d'évaluation. Nous espérons que ces ressources soutiendront des recherches futures et favoriseront l'avancement de la communauté.