Command Palette

Search for a command to run...

算術推論/記号論理/視覚数学/幾何学解析をカバーする7つの主要な数学推論データセットのコレクション

Featured Image

大規模モデル能力の急速な進歩に伴い、数学的推論は人間特有の知的活動から、人工知能における最も挑戦的なフロンティアの一つへと進化しています。論理的推論、数式の計算、多段階的な思考など、かつては人間の合理性に依存していたタスクは、現在では機械によって徐々に「理解」され「学習」されつつあります。しかし、言語理解や画像認識とは異なり、数学的推論ではモデルが質問の表面的な意味を理解するだけでなく、その背後にある論理構造に対する洞察も必要とするため、モデルのパフォーマンスはデータの品質に特に依存します。

モデルを「計算」から「推論」へと進化させるには、高品質で構造化され、論理的に一貫性のあるデータが必要です。体系的、階層的、かつ論理的に一貫性のあるデータセットは、モデルが抽象的な記号の背後にある推論原理を理解できるかどうかを左右するだけでなく、オープンな環境における一般化と自己修正能力にも影響を与えます。一般的な自然言語コーパスと比較して、数学的推論データセットは、問題の分布の多様性、問題解決パスの説明可能性、および推論チェーンの完全な注釈に重点を置き、モデルの学習プロセスが可能な限り人間の思考に近くなることを保証します。

全体、数学的推論は、人工知能が「説明可能な知能」へと進むための重要な窓口になりつつあります。HyperAI は、この分野の研究と応用を促進するために、浙江大学、香港大学、NVIDIA、OpenAI、Alibaba など世界中の一流機関や企業から、視覚数学や幾何学解析など複数の分野を網羅した一連の数学的推論データセットをまとめています。

クリックすると、さらにオープン ソース データセットが表示されます。

https://go.hyper.ai/CdPJZ

数学的推論データセットの概要

1. We-Math2.0-Standardベンチマークデータセット

推定サイズ:369.86 MB

ダウンロードアドレス:https://go.hyper.ai/1dAZ2

We-Math2.0-Standardは、北京郵電大学、テンセント、清華大学が2025年に発表した視覚的数学推論のための標準データセットです。関連論文のタイトルは「WE-MATH 2.0:視覚的数学推論を奨励するための多用途MathBookシステム」です。診断可能、説明可能、かつ比較可能な評価基盤を提供することを目指しています。

用紙のアドレス:

https://hyper.ai/en/papers/2508.10433

このデータセットは、1,819の厳密に定義された知識原則を中心に統一されたラベル空間を構築し、各質問に原則を明示的に注釈付け、厳密にキュレーションすることで、全体として幅広くバランスの取れたカバレッジを実現し、特にこれまで十分にカバーされていなかった数学のサブフィールドと質問タイプを強化しています。このデータセットは、以下の二重拡張設計を採用しています。

* まず、質問ごとに複数の画像を使用して、複数のソースの視覚的証拠の統合と配置をテストします。

* 次に、画像ごとに複数の質問を使用して、同じ視覚的コンテキストでの複数の原則の転送と概念の柔軟性をテストします。

各例は画像とテキストステムで構成され、質問の根拠となる知識原則と標準的な回答の注釈が添えられています。

2. NuminaMath-LEAN 数学問題データセット

推定サイズ:65.06MB

ダウンロードアドレス:https://go.hyper.ai/BfJFv

NuminaMath-LEANは、NuminaとKimiチームが2025年に共同でリリースした数学問題データセットです。関連論文は「Kimina-Prover Preview: Towards Large Formal Reasoning Models with Reinforcement Learning」です。これは、自動定理証明モデルの学習と評価のために、手動で注釈が付けられた形式的なステートメントと証明を提供することを目的としています。

用紙のアドレス:

https://hyper.ai/en/papers/2504.11354

このデータセットには、国際数学オリンピック(IMO)や米国数学オリンピック(USAMO)といった権威ある大会のものを含む、10万問の数学競技問題が含まれています。データの種類には、問題文、問題種別、解答、出典、正式な証明、注釈情報、強化学習の学習プロセス記録などが含まれます。

3. T-Wix ロシア語 SFT データセット

推定サイズ:1.43GB

ダウンロードアドレス:https://go.hyper.ai/5XULu

T-WixはロシアのSFTデータセットです。関連論文は「量から質へ:指示チューニングのための自己ガイド型データ選択によるLLMパフォーマンスの向上」であり、アルゴリズムや数学の問題解決から対話、論理的思考、推論パターンに至るまで、モデルの能力を向上させることを目指しています。

用紙のアドレス:

https://arxiv.org/abs/2308.12032

このデータセットには、499,598件のロシア語サンプルが含まれており、そのうち468,614件は数学、科学、プログラミング、一般知識、指示に従うこと、ロールプレイングなど、様々な分野を網羅する一般的なサンプルです。推論サンプルには30,984個のデータポイントが含まれており、高度な数学と科学の問題に焦点を当て、詳細な推論の軌跡を提供しています。

4. Nemotron-Math-HumanReasoning 数学的推論データセット

推定サイズ:639.91 KB

ダウンロードアドレス:https://go.hyper.ai/28kjP

Nemotron-Math-HumanReasoning は、NVIDIA が 2025 年にリリースした数学的推論データセットです。関連する論文結果は「RL または蒸留なしで LLM に推論を教える課題」であり、DeepSeek-R1 などのモデルの拡張推論スタイルをシミュレートすることを目的としています。

用紙のアドレス:

https://arxiv.org/abs/2507.09850

このデータセットには、OpenMathReasoning データセットからの 50 個の数学の問題、人間が作成した 200 個の解答、および QwQ-32B-Preview によって生成された追加の 50 個の解答が含まれています。

5. Open-Omega-Atom-1.5Mデータセット

推定サイズ:6.6GB

ダウンロードアドレス:https://go.hyper.ai/bndWW

Open-Omega-Atom-1.5M は、数学と科学の推論能力を強化するために設計された数学と科学の推論データセットです。

データセットには約 150 万のデータが含まれており、数学、科学、コード アプリケーション向けに設計されており、数学データがその構成の重要な部分を占めています。

データセットの機能:

* 簡潔かつ高品質: 明確で難しい問題と段階的な解決策に焦点を当てます。

* STEM フォーカス: 数学、コード推論、科学的思考を数学専攻に統合します。

* キュレーションと最適化: データは、最適な多様性と一貫性を実現するために、高品質のオープン データセットとカスタム データから選択的に取得されます。

* 推論に適しています: ステップベースおよびロジックベースの問題解決を強力にカバーしており、推論エンジンのベンチマークとして機能します。

6. GSM8K数学推論データセット

推定サイズ:4.92MB

ダウンロードアドレス:https://go.hyper.ai/d9PZh

GSM8Kは、OpenAIが2022年にリリースした数学的推論データセットです。関連する論文成果は、「数学の文章題を解くための検証者のトレーニング」であり、複雑な数学的問題の理解と解決における機械学習モデルのパフォーマンスを向上させることを目的としています。

用紙のアドレス:

https://arxiv.org/abs/2110.14168

このデータセットには、代数、算数、幾何学などの分野を網羅した、多様な言語で書かれた高品質な小学校向け算数の文章題が8,500問収録されています。問題の解答手順は2~8ステップで、基本的な算術演算(+ − × ÷)を用いた一連の簡単な計算で最終的な答えを導き出します。

7. VCBench 数学的推論ベンチマークデータセット

推定サイズ:86.04MB

ダウンロードアドレス:https://hyper.ai/cn/datasets/43960

VCBench は、明示的な視覚的依存性を持つマルチモーダル数学的推論を評価するためのベンチマーク データセットであり、2025 年に Alibaba と浙江大学によってリリースされました。データセットには、1,720 の質問と回答のペアと合計 6,697 枚の画像が含まれています。

質問は主に以下の6つの分野に及びます。

* 時間とカレンダー: 2 つのサブカテゴリ (カレンダーと時計) にわたって時間に関する推論の問題をテストします。時間間隔とカレンダーに基づく計算についての理解が必要です。

* 空間と位置: 課題は、3 つのサブカテゴリ (方向、位置、場所) にわたる空間的推論に焦点を当て、相対的な位置、方向、空間関係の理解を評価します。

* 幾何学と図形: 5 つのサブカテゴリ (角度、四辺形、長方形、図形、三角形) をカバーする質問は、基本的な図形の認識からより複雑な特性の分析まで、基本的な幾何学の理解をテストします。

* オブジェクトとモーション: 2 つのサブカテゴリ (Cube と Move) のタスクでは、3 次元オブジェクトとモーション変換の理解を評価します。

* 推論と観察: 両方のサブカテゴリ (推論と観察) の質問は、論理的推論と注意深い視覚観察スキルをテストするように設計されています。

* 構成とパターン: 3 つのサブカテゴリ (構成、パターン、重み付け) にわたる課題では、パターン認識、順序付け、構成ロジックを評価します。

上記は今号のおすすめデータセットのまとめです。ぜひワンクリックでダウンロードしてくださいね~

算術推論/記号論理/視覚数学/幾何学解析をカバーする7つの主要な数学推論データセットのコレクション | ニュース | HyperAI超神経