11日前

Nemotron-CC-Math：1330億トークン規模の高品質な数学向け事前学習データセット

Rabeeh Karimi Mahabadi, Sanjeev Satheesh, Shrimai Prabhumoye, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro

要約

大規模言語モデル（LLM）を、数学やコードなど高品質かつ構造化されたデータで事前学習させることで、推論能力が顕著に向上することが知られている。しかし、これまでの数学に特化したデータセットは、Common Crawl から構築されたものが多く、脆弱な抽出ヒューリスティクスや損失を伴うHTMLからテキストへの変換、さらに数学的構造の信頼性ある保持に失敗するといった問題から、品質が著しく低下している。本研究では、こうした課題を解決するため、科学的テキスト抽出に特化したドメインに依存しない新しいパイプラインを用いて、Common Crawl から大規模かつ高品質な数学用語彙（corpus）である「Nemotron-CC-Math」を構築した。従来のアプローチとは異なり、本パイプラインは Lynx を用いたレイアウト認識型のレンダリングと、特定のLLMを活用したクリーニング段階を組み合わせることで、MathJax、KaTeX、MathMLなど多様な形式の数式を効果的に復元する。この手法により、数式やコードブロックの構造的整合性を保持しつつ、不要なボイラープレートを除去し、表記を一貫したLaTeX形式に標準化し、不整合を修正することが可能となる。本研究では、大規模かつ高品質な数学語彙として、Nemotron-CC-Math-3+（1330億トークン）およびNemotron-CC-Math-4+（520億トークン）を収集した。特にNemotron-CC-Math-4+は、従来のオープンデータセット（MegaMath、FineMath、OpenWebMathなど）をすべて上回る品質を実現しており、かつ従来最高品質とされていたFineMath-4+の5.5倍以上のトークン数を有している。この語彙を用いてNemotron-T 8Bモデルを事前学習させた結果、MATHではベースライン比で+4.8～+12.6、MBPP+では+4.6～+14.3の性能向上が達成され、さらにMMLUおよびMMLU-Stemにおいても汎用領域の性能が向上した。本研究は、ノイズの多いウェブスケールデータから科学的コンテンツ（特に数学）を信頼性高く抽出する初のパイプラインを提示し、数学、コード、汎用推論能力において明確な性能向上をもたらした。これにより、オープンソースの数学事前学習語彙の分野において、新たなSOTA（最良の成果）を確立した。オープンソースコミュニティの支援を目的として、本研究のコードおよびデータセットを公開する。