中国語 DeepSeek R1 蒸留データ DeepSeek-R1 蒸留データセットに基づく 11 万の中国語
※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。
このデータセットは、中国のオープンソースの精錬された完全な R1 データセットです。データセットには数学データだけでなく、大量の一般型データも含まれており、総量は 110K です。
このデータセットをオープンソース化した理由は、R1 の効果が非常に強力であり、R1 蒸留データに基づく小規模モデル SFT も強力な効果を示しているためです。ただし、検索してみると、オープンソースの R1 蒸留データセットのほとんどが英語のデータセットであることがわかりました。同時に、R1 レポートでは、いくつかの一般的なシナリオ データセットも蒸留モデルで使用されていることが示されています。 R1 蒸留モデルの効果をより良く再現できるようにするために、中国語のデータセットをオープンソース化します。
この中国のデータセットのデータ分布は次のとおりです。
- 数学: 合計36,987サンプル、
- 試験:合計2,440サンプル、
- STEM: 合計12,000サンプル、
- 一般:計58,573件、知恵袋、論理推理、小紅書、知乎、チャットなど。
フィールドの説明:
- 入力: 入力
- reasoning_content: 思考
- コンテンツ: 出力
- repo_name: データソース
Chinese-DeepSeek-R1-Distill-data-110k.torrent
シーディング 2ダウンロード中 0ダウンロード完了 112総ダウンロード数 301