Command Palette
Search for a command to run...
Nemotron-Math : Distillation efficace du raisonnement mathématique à partir d'une supervision multimodale pour des contextes longs
Nemotron-Math : Distillation efficace du raisonnement mathématique à partir d'une supervision multimodale pour des contextes longs
Wei Du Shubham Toshniwal Branislav Kisacanin Sadegh Mahdavi Ivan Moshkov George Armstrong Stephen Ge Edgar Minasyan Feng Chen Igor Gitman
Abstract
La supervision de raisonnement mathématique de haute qualité nécessite des styles de raisonnement variés, des traces détaillées de longue forme, ainsi qu’une intégration efficace d’outils, des capacités que les jeux de données existants ne proposent qu’à un degré limité. En exploitant la capacité de génération multi-mode du modèle gpt-oss-120b, nous introduisons Nemotron-Math, un grand jeu de données dédié au raisonnement mathématique, comprenant 7,5 millions de traces de solutions réparties sur trois niveaux de raisonnement (élevé, moyen et faible), chacun disponible avec et sans intégration d’outils Python (TIR – Tool-Integrated Reasoning).Ce jeu de données combine 85 000 problèmes soigneusement sélectionnés issus d’AoPS (Art of Problem Solving) et 262 000 problèmes collectés par la communauté via StackExchange-Math, associant ainsi des tâches structurées issues de concours mathématiques à des requêtes mathématiques réelles et diversifiées. Nous menons des évaluations contrôlées afin d’assurer la qualité du jeu de données.Nemotron-Math dépasse de manière constante le jeu de données original OpenMathReasoning sur les problèmes correspondants d’AoPS. L’intégration des problèmes de StackExchange-Math améliore significativement la robustesse et la généralisation, en particulier sur le benchmark HLE-Math, tout en maintenant une haute précision sur les épreuves de concours mathématiques.Pour faciliter l’entraînement efficace sur de longs contextes, nous avons développé une stratégie de regroupement séquentiel qui accélère l’ajustage fin (fine-tuning) sur des contextes de 128 000 tokens de 2 à 3 fois, sans perte notable de précision. Globalement, Nemotron-Math permet d’atteindre des performances de pointe, notamment un taux de précision de 100 % en maj@16 sur les épreuves AIME 2024 et 2025, avec intégration d’outils Python (TIR).