数学/コード/科学/パズルを網羅した高品質の推論データセットがまとめられており、DeepSeekの強力な推論機能を再現するのに役立ちます。

最近、DeepSeek-R1 によって引き起こされた推論モデルの人気は、さらに高まっています。1 月 31 日、OpenAI は新しい推論モデル o3-mini を発表しました。2 月 18 日、xAI は Grok-3 Reasoning Beta と推論機能を備えた Grok-3 mini Reasoning を含む Grok 3 を発表しました。2 月 25 日、Anthropic は初のハイブリッド推論モデル Claude 3.7 Sonnet を発表しました。
実際、大規模モデル間の同質性が高まり競争が激化する中で、推論能力はそのパフォーマンスを測る重要な指標となっており、AIがAGIへと進化していくための重要な発展方向でもあります。アルゴリズムの最適化の限界が徐々に現れ、モデルのパラメータが限界まで圧縮されていくにつれて、データの品質は、モデルが単純な「回答記憶」から深い「論理的推論」に移行できるかどうかを決定する重要な要素の 1 つになっています。
推論データセットの構築は、単純な質問の山とはほど遠いものです。モデルがトレーニング中に情報を漏らしたり、テスト中に不正行為をしたりするのを防ぐために、テスト セットとトレーニング セットの間でデータを厳密に分離し、質問タイプを定期的に更新する動的更新メカニズムを導入する必要があります。数学的な証明やコード生成などの複雑なタスクを扱う場合、データセットを構築するときに複数の論理チェーンを慎重に設計し、隠れたトラップ条件を巧みに設定し、問題解決における人間の試行錯誤と思考プロセスを可能な限りシミュレートして、実際のアプリケーションシナリオに近い学習教材をモデルに提供する必要があります。
DeepSeekがAIME数学コンテストで素晴らしい成績を収めたことは、その好例です。DeepSeekが利用しているOpenThoughts-114kデータセットは、段階的な演繹を必要とし、複数の論理的連鎖を伴う一連の問題を扱います。厳格な検証メカニズムと巧みに配置された多段階の推論構造により、データの正確性と信頼性が保証されると同時に、質問に答えるために「記憶」だけに頼るのではなく、モデルがより深い推論能力を学習できるようになります。
要約すると、DeepSeek の成功により、業界では高品質の推論データセットへの注目が高まりました。次、HyperAI は、数学、コード、科学、パズルなど、複数の分野を網羅した最も人気のある推論データセットをいくつかまとめました。これらのデータセットは、大規模モデルの推論機能を大幅に向上させたいと考えている実務家や研究者にとって優れた出発点となります。
クリックすると、さらにオープン ソース データセットが表示されます。
推論データセットの概要
推定サイズ:922.07MB
ダウンロードアドレス:https://go.hyper.ai/SaAit
このデータセットは、2025年にOpen Thoughtsによってリリースされたもので、数学、コード、科学、パズルなどの分野に焦点を当てており、114,000件の高品質なサンプルが含まれています。小規模な推論モデルをトレーニングして、数学およびコード推論タスクで既存の大規模モデル (DeepSeek-R1-Distill-Qwen-32B や DeepSeek-R1-Distill-Qwen-7B など) を上回るパフォーマンスを実現することを目的としています。
2. Bespoke-Stratos-17k推論タスクデータセット
推定サイズ:125MB
ダウンロードアドレス:https://go.hyper.ai/nLGos
このデータセットは、推論タスク専用に設計された高品質のデータセットです。コード、数学、科学パズルなど複数の分野を網羅した質問、推論のトレース、回答が含まれており、高性能な推論モデルのトレーニングをサポートすることを目的としています。データセットは 3 つの部分で構成されています。
* プログラミングデータ: APP および TACO からの 5,000 件のレコード * 数学データ: NuminaMATH データセットの AIME、MATH、および Olympiads サブセットからの 10,000 件のレコード
* 科学とパズルのデータ: STILL-2 からの 1,000 のデータ ポイント
推定サイズ:2.24ギガバイト
ダウンロードアドレス:https://go.hyper.ai/grwUo
Dolphin-R1 推論データセットには約 800,000 のサンプルが含まれています。データ ソースには、DeepSeek-R1、Gemini Flash、Dolphin Chat から提供される 200,000 のサンプルが含まれます。これは、DeepSeek-R1 に類似した推論モデルのトレーニングに高品質のサンプルを提供することを目的としています。これらのサンプルは主に、数学、論理、コーディングなどの複雑なタスクをカバーする推論タスクにおけるモデルのパフォーマンスを向上させるために使用されます。
推定サイズ:4.22MB
ダウンロードアドレス:https://go.hyper.ai/0p72o
LIMO 数学推論ベンチマークデータセットには、817 個の高品質な数学推論サンプルのみが含まれています。これは、高品質のトレーニングサンプルを慎重に選択することで、大規模モデルの数学的推論能力をトレーニングおよび評価することを目的としています。このデータセットは主に、大規模モデルの数学的問題解決能力をトレーニングし、数学試験や競技問題 (AIME、MATH-500 など) でのパフォーマンスを向上させるために使用されます。
推定サイズ:446.62MB
ダウンロードアドレス:https://go.hyper.ai/qVAgO
NuminaMath-1.5 数学推論データセットは、数学教育や競技問題の分野に適しています。約 90 万の高品質な競技レベルの数学問題が含まれており、各問題の解答は Chain of Thought (CoT) 形式になっています。これらの問題は、中国の高校数学の練習問題と、アメリカおよび国際数学オリンピックの競技問題から派生したものです。
6. OpenR1-Math-220k 数学推論データセット
推定サイズ:8.44ギガバイト
ダウンロードアドレス:https://go.hyper.ai/nuhSv
OpenR1-Math-220k は、DeepSeek R1 合成データのギャップを埋めるために 2025 年に Open R1 チームによってリリースされた大規模な数学的推論データセットです。このデータセットには、DeepSeek R1 によって生成された 800,000 の推論軌跡から派生した 220,000 の高品質な数学の問題とその推論軌跡が含まれています。
推定サイズ:376MB
ダウンロードアドレス:https://go.hyper.ai/8Podu
このデータセットは、中国のオープンソースの蒸留された全血R1データセットです。データセットには、Mathデータだけでなく、大量の一般型データも含まれており、総量は110Kです。これらには以下が含まれます:
* 数学: 36,987 サンプル
* 試験:2,440サンプル
* STEM: 12,000 サンプル
* 一般: 58,573 サンプル (Retarded Bar、Logical Reasoning、Xiaohongshu、Zhihu、Chat などを含む)。
上記はHyperAIがまとめた推論データセットです。hyper.ai公式サイトに掲載したいリソースをお持ちの方は、ぜひメッセージを残すか、寄稿を送信してお知らせください。
HyperAIについて Hyper.ai
HyperAI(hyper.ai)は、中国をリードする人工知能とハイパフォーマンス・コンピューティングのコミュニティである。国内データサイエンス分野のインフラとなり、国内開発者に豊富で質の高い公共リソースを提供することに注力しています。
* 1,200 を超える公開データセットに対して国内の高速ダウンロード ノードを提供
* 300 以上の古典的で人気のあるオンライン チュートリアルが含まれています
* 100 以上の AI4Science 論文ケースを解釈
* 500 以上の関連用語クエリをサポート
*Apache TVM の最初の完全な中国語ドキュメントを中国でホストします
学習の旅を始めるには、公式 Web サイトにアクセスしてください。