Command Palette

Search for a command to run...

Nemotron-CC-Math 数学事前トレーニングデータセット

日付

2ヶ月前

組織

ボストン大学
エヌビディア

論文URL

2508.15096

ライセンス

その他

Discordコミュニティに参加

Nemotron-CC-Mathは、NVIDIAとボストン大学が2025年にリリースした、数学に特化した高品質で大規模な事前学習データセットです。関連する論文の結果は「Nemotron-CC-Math: 1330億トークン規模の高品質数学事前学習データセット」は、価値の高い数学コンテンツとコードコンテンツを保存および表示し、それによってインテリジェントでグローバル対応の言語モデルの次世代を推進することを目的としています。

1,330億トークンを含むこのデータセットは、NVIDIA Lynxと軽量LLMをベースとした抽出・正規化パイプラインを用いてCommon Crawlから構築されました。方程式とコードの構造を維持しながら、数学コンテンツは編集可能なLaTeX形式に標準化されています。これは、Webスケールで多様な数学形式(ロングテールを含む)を信頼性の高い方法でカバーした初の事例であり、その利点は複数のベンチマークで検証されています。

データセット構築プロセス

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています