HyperAI超神経

AM-DeepSeek-R1-Distilled-1.4M 大規模一般推論タスクデータセット

日付

2ヶ月前

サイズ

47.22 GB

組織

公開URL

github.com

AM-DeepSeek-R1-Distilled-1.4Mは、2025年3月にam-teamによってリリースされた大規模な一般推論タスクデータセットです。関連する論文の結果は「大規模言語モデルのトレーニングを強化する 140 万のオープンソースの蒸留推論データセット”。

このデータセットには、数学、コード、科学的な Q&A、一般的なチャットなど、さまざまな質問タイプを網羅した約 140 万のデータ エントリが含まれています。これらのデータは、データの品質と難易度の高さを確保するために、慎重に選択され、意味的に重複が排除され、厳密にクリーニングされています。データセットの各エントリには豊富な思考のトレースが含まれており、モデルに推論プロセスの例を提供するだけでなく、モデルが複雑な推論タスクをよりよく理解して解決策を生成するのにも役立ちます。 AM-DeepSeek-R1-Distilled-1.4M データセットのリリースは、特に大規模言語モデルの推論機能のトレーニングと最適化のための、自然言語処理および推論タスクのための強力なツールを提供することを目的としています。これにより、モデルは数学、コード、科学的な質問への回答などの重要な領域でパフォーマンスを向上させ、さまざまな複雑な推論タスクに適切に対処できるようになります。

AM-DeepSeek-R1-Distilled-1.4M.torrent
シーディング 2ダウンロード中 0ダウンロード完了 0総ダウンロード数 2
  • AM-DeepSeek-R1-Distilled-1.4M/
    • README.md
      1.8 KB
    • README.txt
      3.6 KB
      • data/
        • main.zip
          10.32 GB
          • main/
            • README.md
              10.32 GB
            • am_0.5M.jsonl
              23.84 GB
            • am_0.5M.jsonl.zst
              25.76 GB
            • am_0.9M.jsonl
              44.19 GB
            • am_0.9M.jsonl.zst
              47.19 GB
            • am_0.9M_sample_1k.jsonl
              47.21 GB
            • am_0.9M_sample_1k.jsonl.zst
              47.22 GB