日付

1年前

サイズ

47.22 GB

データセット構成

公開URL

論文URL

タグ

AM-DeepSeek-R1-Distilled-1.4Mは、2025年3月にam-teamによってリリースされた大規模な一般推論タスクデータセットです。関連する論文の結果は「大規模言語モデルのトレーニングを強化する 140 万のオープンソースの蒸留推論データセット”。このデータセットには、数学、コード、科学的な Q&A、一般的なチャットなど、さまざまな質問タイプを網羅した約 140 万のデータエントリが含まれています。これらのデータは、データの品質と難易度の高さを確保するために、慎重に選択され、意味的に重複が排除され、厳密にクリーニングされています。データセットの各エントリには豊富な思考のトレースが含まれており、モデルに推論プロセスの例を提供するだけでなく、モデルが複雑な推論タスクをよりよく理解して解決策を生成するのにも役立ちます。 AM-DeepSeek-R1-Distilled-1.4M データセットのリリースは、特に大規模言語モデルの推論機能のトレーニングと最適化のための、自然言語処理および推論タスクのための強力なツールを提供することを目的としています。これにより、モデルは数学、コード、科学的な質問への回答などの重要な領域でパフォーマンスを向上させ、さまざまな複雑な推論タスクに適切に対処できるようになります。

引用

私たちの研究があなたの研究に役立つと感じられた場合は、星評価（:star:）と引用（:pencil:）をお願いします。「BibTeX @misc{tian2025correctanswersequaldistillation、タイトル={すべての正解が同じとは限らない：蒸留源が重要な理由} author={Xiaoyu Tian、Yunjie Ji、Haotian Wang、Shuaiting Chen、Sitong Zhao、Yiping Peng、Han Zao、および Xiangang Li}、年={2025}、 eprint={2505.14464}、 archivePrefix={arXiv}、 primaryClass={cs.CL}、 url={https://arxiv.org/abs/2505.14464}、 } @misc{ji2025amthinkingv1advancingfrontierreasoning、タイトル={AM-Thinking-v1: 32Bスケールでの推論の最前線を前進させる}、 author={Yunjie Ji、Xiaoyu Tian、Sitong Zhao、Haotian Wang、Shuaiting Chen、Yiping Peng、Han Zhao、Xianang Li}、年={2025}、 eprint={2505.08311}、 archivePrefix={arXiv}、 primaryClass={cs.CL}、 url={https://arxiv.org/abs/2505.08311}、 } @misc{tian2025exploringpotentialofflinerl、タイトル={LLMにおける推論のためのオフライン強化学習の可能性を探る：予備研究} author={Xiaoyu Tian、Sitong Zhao、Haotian Wang、Shuaiting Chen、Yiping Peng、Yunjie Ji、Han Zao、および Xiangang Li}、年={2025}、 eprint={2505.02142}、 archivePrefix={arXiv}、 primaryClass={cs.CL}、 url={https://arxiv.org/abs/2505.02142}、 } @misc{tian2025deepdistillenhancingllmreasoning、 title={DeepDistill: 大規模な難易度別データトレーニングによるLLM推論能力の強化}, author={Xiaoyu Tian、Sitong Zhao、Haotian Wang、Shuaiting Chen、Yiping Peng、Yunjie Ji、Han Zao、および Xiangang Li}、年={2025}、 eprint={2504.17565}、 archivePrefix={arXiv}、 primaryClass={cs.CL}、 url={https://arxiv.org/abs/2504.17565}、 } @misc{wang2025leveragingreasoningmodelanswers, タイトル={推論モデルの回答を活用して非推論モデルの機能を強化する}、 author={Haotian Wang、Han Zhao、Shuaiting Chen、Xiaoyu Tian、Sitong Zhao、Yunjie Ji、Yiping Peng、Xianang Li}、年={2025}、 eprint={2504.09639}、 archivePrefix={arXiv}、 primaryClass={cs.CL}、 url={https://arxiv.org/abs/2504.09639}、 } @misc{ji2025difficultyawarestagedreinforcementlearning, タイトル={難易度を考慮した段階的強化学習がLLMの推論能力をどのように向上させるか：予備的な実験的研究} author={Yunjie Ji、Sitong Zhao、Xiaoyu Tian、Haotian Wang、Shuaiting Chen、Yiping Peng、Han Zhao、Xianang Li}、年={2025}、 eprint={2504.00829}、 archivePrefix={arXiv}、 primaryClass={cs.CL}、 url={https://arxiv.org/abs/2504.00829}、 } @misc{tian2025thinktwiceenhancingllm、タイトル={Think Twice: 複数ラウンドのテスト時思考をスケーリングすることでLLM推論能力を向上させる}, author={Xiaoyu Tian、Sitong Zhao、Haotian Wang、Shuaiting Chen、Yunjie Ji、Yiping Peng、Han Zao、および Xiangang Li}、年={2025}、 eprint={2503.19855}、 archivePrefix={arXiv}、 primaryClass={cs.CL}、 url={https://arxiv.org/abs/2503.19855}、 } @misc{zhao202514millionopensourcedistilled, タイトル={大規模言語モデルのトレーニングを強化する140万件のオープンソース蒸留推論データセット}、 author={Han Zhao、Haotian Wang、Yiping Peng、Sitong Zhao、Xiaoyu Tian、Shuaiting Chen、Yunjie Ji、Xianang Li}、年={2025}、 eprint={2503.19633}、 archivePrefix={arXiv}、 primaryClass={cs.CL}、 url={https://arxiv.org/abs/2503.19633}、 } “

AM-DeepSeek-R1-Distilled-1.4M.torrent

シーディング 1ダウンロード中 0完了 122総ダウンロード数 272

AM-DeepSeek-R1-Distilled-1.4M/
- README.md
  1.8 KB
- README.txt
  3.6 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

1年前

サイズ

47.22 GB

データセット構成

公開URL

論文URL

タグ

引用

AM-DeepSeek-R1-Distilled-1.4M.torrent

シーディング 1ダウンロード中 0完了 122総ダウンロード数 272

AM-DeepSeek-R1-Distilled-1.4M/
- README.md
  1.8 KB
- README.txt
  3.6 KB

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

AM-DeepSeek-R1-Distilled-1.4M 大規模一般推論タスクデータセット

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

AM-DeepSeek-R1-Distilled-1.4M 大規模一般推論タスクデータセット

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

VisCoR-55K ビジュアル推論データセット

AgentTroveインテリジェントエージェント相互作用軌跡データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

眼底疾患分類データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

BRIGHT災害建物評価データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

GPT-5.4ステップバイステップ推論データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

AM-DeepSeek-R1-Distilled-1.4M 大規模一般推論タスクデータセット

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

VisCoR-55K ビジュアル推論データセット

AgentTroveインテリジェントエージェント相互作用軌跡データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

眼底疾患分類データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

BRIGHT災害建物評価データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

GPT-5.4ステップバイステップ推論データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

MAKIEVAL 多言語文化知識評価データセット

逐語的スパンクエリ条件証拠抽出データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

TACKターゲットキメラ知識ベースデータセット

EAVSD（電子商取引広告ビデオストーリーボードデータセット）

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

VisCoR-55K ビジュアル推論データセット

AgentTroveインテリジェントエージェント相互作用軌跡データセット

MathNetマルチモーダル数学ベンチマーク推論データセット

眼底疾患分類データセット

QCalEval 量子較正グラフの理解データセット

RSRCCリモートセンシング領域変化理解ベンチマークデータセット

BRIGHT災害建物評価データセット

OmniParsingBench マルチモーダル構文解析機能評価データセット

MDPBench 多言語文書解析ベンチマークデータセット

GPT-5.4ステップバイステップ推論データセット

関連データセット

MAKIEVAL 多言語文化知識評価データセット