MathPile は、約 95 億のトークンを含む、多様で高品質な数学中心のコーパスです。このデータセットは、次の特徴において以前のデータセットとは大きく異なります。
- 数学中心: MathPile は、Pile や RedPajama のような一般的な分野に焦点を当てたコーパスや、ROOTS や The Stack のような複数の言語に焦点を当てたコーパスとは異なり、数学の分野にサービスを提供することに重点を置いています。数学に焦点を当てたコーパスは存在しますが、Google の Minerva や OpenAI の MathMix のようにクローズド ソースであるか、ProofPile や OpenWebMath のように多様性に欠けています。
- 多様性:MathPile は幅広いソースから収集します。教科書 (講義ノートを含む)、arXiv、Wikipedia、ProofWiki、StackExchange、および Web。これには、幼稚園から高校まで、大学、大学院レベル、および数学コンテストに適した数学コンテンツが含まれています。特に、研究チームは高品質の教科書の大規模なコレクション(約19億トークン)をリリースしました。
- 高品質: 研究チームは、少ないほど良いという原則を遵守しており、トレーニング前の段階であっても、データの量よりも質の方が優れていると強く信じています。高度な前処理、事前スクリーニング、クリーニング、フィルタリング、重複排除スイートを含む、研究チームの細心の注意を払ったデータ収集と処理の取り組みにより、研究チームのコーパスの高品質が保証されています。
- データドキュメント: 透明性を高めるために、研究チームは MathPile を広範囲に文書化しました。これには、データセット テーブル (論文の表 5 を参照) と、言語認識スコアや記号と単語の比率などの Web ソース ファイルの品質注釈が含まれます。これにより、ユーザーはニーズに合わせてデータを柔軟に調整できます。研究チームはまた、データ汚染検出を実行して、MATH や MMLU-STEM などのベンチマーク テスト セットから重複を排除しました。