MathX-5M 数学的推論データセット
MathXは、思考能力を増強するための、指示ベースのモデルチューニングと既存モデルの微調整を目的として設計された数学的推論データセットです。このデータセットは、現在までに公開されている数学的推論データの最大かつ最も包括的なコーパスです。
このデータセットには、厳選された500万点のステップバイステップの思考データ例が含まれており、それぞれに問題の説明、詳細な推論プロセス、検証済みの正解が含まれています。例は、算術と数論、代数と多項式、幾何学と三角法、微積分と解析学を網羅しています。
問題の複雑さの分布
- 基礎レベル(30%):基本的な数学の概念と演算
- 中級(30%):推論の連鎖を必要とする多段階問題
- 上級(40%):複雑な数学の課題と証明
データセットの機能:
- 多様性: 基本的な算術から高度な微積分まで、数学を包括的にカバー
- 品質: 多段階のスクリーニングと検証プロセス
- 推論:詳細な数学的アイデアを用いた段階的な解決策
- 正確性: 強化学習によって検証され、正確性が検証された回答