Command Palette
Search for a command to run...
Nemotron-Math: Effiziente Langkontext-Distillation mathematischer Schlussfolgerung aus multimodaler Überwachung
Nemotron-Math: Effiziente Langkontext-Distillation mathematischer Schlussfolgerung aus multimodaler Überwachung
Wei Du Shubham Toshniwal Branislav Kisacanin Sadegh Mahdavi Ivan Moshkov George Armstrong Stephen Ge Edgar Minasyan Feng Chen Igor Gitman
Abstract
Hohe Qualität mathematischer Schlussfolgerung erfordert vielfältige Schlussfolgerungsstile, ausführliche Lösungstraces und eine effektive Integration von Werkzeugen – Fähigkeiten, die bestehende Datensätze nur in eingeschränktem Maße bieten. Ausgehend von der multimodalen Generationsfähigkeit von gpt-oss-120b stellen wir Nemotron-Math vor, einen großskaligen Datensatz für mathematische Schlussfolgerung mit insgesamt 7,5 Millionen Lösungstraces, die sich auf drei Ebenen der Schlussfolgerungsqualität – hoch, mittel und niedrig – verteilen. Für jede Ebene stehen die Lösungen sowohl mit als auch ohne integrierte Python-Werkzeugnutzung (Tool-Integrated Reasoning, TIR) zur Verfügung.Der Datensatz kombiniert 85.000 sorgfältig ausgewählte Aufgaben aus AoPS mit 262.000 community-basiert gesammelten Problemen aus StackExchange-Math und vereint strukturierte Wettbewerbsaufgaben mit vielfältigen, realen mathematischen Fragestellungen. Wir führen kontrollierte Evaluationen durch, um die Datensatzqualität zu bewerten.Nemotron-Math übertrifft konsistent die ursprüngliche OpenMathReasoning-Datenbank bei vergleichbaren AoPS-Aufgaben. Die Einbeziehung der StackExchange-Math-Aufgaben verbessert die Robustheit und Generalisierbarkeit erheblich, insbesondere bei HLE-Math, während gleichzeitig die Genauigkeit auf mathematischen Wettbewerbsbenchmarks erhalten bleibt.Um eine effiziente Training mit langen Kontexten zu ermöglichen, entwickeln wir eine sequenzielle Bucket-Strategie, die die Feinabstimmung bei einer Kontextlänge von 128.000 Token um das 2- bis 3-fache beschleunigt, ohne signifikante Genauigkeitsverluste zu verursachen. Insgesamt ermöglicht Nemotron-Math Spitzenleistungen, darunter eine 100 %ige Maj@16-Genauigkeit bei AIME 2024 und 2025 unter Verwendung von Python-TIR.