Command Palette
Search for a command to run...
Nemotron-Math:マルチモード監視からの数学的推論の効率的長文脈蒸留
Nemotron-Math:マルチモード監視からの数学的推論の効率的長文脈蒸留
Wei Du Shubham Toshniwal Branislav Kisacanin Sadegh Mahdavi Ivan Moshkov George Armstrong Stephen Ge Edgar Minasyan Feng Chen Igor Gitman
Abstract
高品質な数学的推論の監視には、多様な推論スタイル、長文の推論トレース、効果的なツール統合が求められるが、現存するデータセットはこれらを限定的な形でしか提供していない。GPT-OSS-120Bのマルチモード生成能力を活用して、本研究では750万件の解法トレースを含む大規模な数学的推論データセット「Nemotron-Math」を提案する。このデータセットは、高・中・低の3段階の推論モードを網羅しており、それぞれがPythonによるツール統合推論(TIR)を用いる場合と用いない場合の両方で提供されている。Nemotron-Mathは、8.5万件の精選されたAoPS問題と、26.2万件のコミュニティ提供のStackExchange-Math問題を統合しており、構造化された数学コンペティション問題と多様な現実世界の数学的問いを併せ持つ。本研究では、データセットの品質を評価するために制御された評価を実施した。Nemotron-Mathは、一致するAoPS問題において、元のOpenMathReasoningを一貫して上回る性能を示した。特に、StackExchange-Mathの導入により、HLE-Mathにおけるロバスト性と汎化性能が顕著に向上した一方で、数学コンペティションのベンチマークにおいても精度を維持した。また、長文コンテキスト学習の効率化を図るため、順次バケット化戦略を提案。この戦略により、128Kのコンテキスト長におけるファインチューニングが2~3倍の速度で実行可能となりつつ、精度の低下は顕著に抑えられた。総合的に見て、Nemotron-Mathは最先端の性能を実現しており、Python TIRを用いた場合、AIME 2024および2025においてmaj@16で100%の精度を達成した。