HyperAI超神経

中国語 DeepSeek R1 蒸留データ DeepSeek-R1 蒸留データセットに基づく 11 万の中国語

日付

4ヶ月前

サイズ

231.15 MB

ライセンス

Apache 2.0

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください

このデータセットは、中国のオープンソースの精錬された完全な R1 データセットです。データセットには数学データだけでなく、大量の一般型データも含まれており、総量は 110K です。

このデータセットをオープンソース化した理由は、R1 の効果が非常に強力であり、R1 蒸留データに基づく小規模モデル SFT も強力な効果を示しているためです。ただし、検索してみると、オープンソースの R1 蒸留データセットのほとんどが英語のデータセットであることがわかりました。同時に、R1 レポートでは、いくつかの一般的なシナリオ データセットも蒸留モデルで使用されていることが示されています。 R1 蒸留モデルの効果をより良く再現できるようにするために、中国語のデータセットをオープンソース化します。

この中国のデータセットのデータ分布は次のとおりです。

  • 数学: 合計36,987サンプル、
  • 試験:合計2,440サンプル、
  • STEM: 合計12,000サンプル、
  • 一般:計58,573件、知恵袋、論理推理、小紅書、知乎、チャットなど。

フィールドの説明:

  • 入力: 入力
  • reasoning_content: 思考
  • コンテンツ: 出力
  • repo_name: データソース
Chinese-DeepSeek-R1-Distill-data-110k.torrent
シーディング 2ダウンロード中 0ダウンロード完了 112総ダウンロード数 301
  • Chinese-DeepSeek-R1-Distill-data-110k/
    • README.md
      1.74 KB
    • README.txt
      3.48 KB
      • data/
        • Chinese-DeepSeek-R1-Distill-110k.zip
          231.15 MB