Nemotron-CC-Math 数学事前トレーニングデータセット

ダウンロードヘルプ

Nemotron-CC-Mathは、NVIDIAとボストン大学が2025年にリリースした、数学に特化した高品質で大規模な事前学習データセットです。関連する論文の結果は「Nemotron-CC-Math: 1330億トークン規模の高品質数学事前学習データセット」は、価値の高い数学コンテンツとコードコンテンツを保存および表示し、それによってインテリジェントでグローバル対応の言語モデルの次世代を推進することを目的としています。

1,330億トークンを含むこのデータセットは、NVIDIA Lynxと軽量LLMをベースとした抽出・正規化パイプラインを用いてCommon Crawlから構築されました。方程式とコードの構造を維持しながら、数学コンテンツは編集可能なLaTeX形式に標準化されています。これは、Webスケールで多様な数学形式(ロングテールを含む)を信頼性の高い方法でカバーした初の事例であり、その利点は複数のベンチマークで検証されています。

データセット構築プロセス