日付

1年前

サイズ

231.15 MB

ライセンス

Apache 2.0

タグ

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

このデータセットは、中国のオープンソースの精錬された完全な R1 データセットです。データセットには数学データだけでなく、大量の一般型データも含まれており、総量は 110K です。このデータセットをオープンソース化した理由は、R1 の効果が非常に強力であり、R1 蒸留データに基づく小規模モデル SFT も強力な効果を示しているためです。ただし、検索してみると、オープンソースの R1 蒸留データセットのほとんどが英語のデータセットであることがわかりました。同時に、R1 レポートでは、いくつかの一般的なシナリオデータセットも蒸留モデルで使用されていることが示されています。 R1 蒸留モデルの効果をより良く再現できるようにするために、中国語のデータセットをオープンソース化します。この中国のデータセットのデータ分布は次のとおりです。

数学: 合計36,987サンプル、
試験：合計2,440サンプル、
STEM: 合計12,000サンプル、
一般：計58,573件、知恵袋、論理推理、小紅書、知乎、チャットなど。フィールドの説明:
入力: 入力
reasoning_content: 思考
コンテンツ: 出力
repo_name: データソース

引用

@misc{R1 からの中国語データ抽出、著者: {Cong Liu、Zhong Wang、ShengYu Shen、Jialiang Peng、Xiaoli Zhang、ZhenDong Du、YaFang Wang} タイトル = {DeepSeek-R1-671bから抽出された中国語データセット}、年 = {2025}、パブリッシャー = {HuggingFace}、 howpublished = {\url{https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k}}, }

Chinese-DeepSeek-R1-Distill-data-110k.torrent

シーディング 1ダウンロード中 0完了 235総ダウンロード数 532

Chinese-DeepSeek-R1-Distill-data-110k/
- README.md
  1.74 KB
- README.txt
  3.48 KB

このデータセットはコミュニティユーザーによって提供されており、教育および情報提供のみを目的としています。著作権侵害に関わるコンテンツがある場合は、[email protected]までご連絡ください。速やかに確認し、削除いたします。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

HyperAI

このデータセットを使用

Discordで議論

日付

1年前

サイズ

231.15 MB

ライセンス

Apache 2.0

タグ

DeepSeek

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

数学: 合計36,987サンプル、
試験：合計2,440サンプル、
STEM: 合計12,000サンプル、
一般：計58,573件、知恵袋、論理推理、小紅書、知乎、チャットなど。フィールドの説明:
入力: 入力
reasoning_content: 思考
コンテンツ: 出力
repo_name: データソース

引用

Chinese-DeepSeek-R1-Distill-data-110k.torrent

シーディング 1ダウンロード中 0完了 235総ダウンロード数 532

Chinese-DeepSeek-R1-Distill-data-110k/
- README.md
  1.74 KB
- README.txt
  3.48 KB

MAKIEVAL 多言語文化知識評価データセット

10時間前

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

5日前

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

7日前

FigureBench科学イラスト生成ベンチマークデータセット

7日前

SMOL多言語翻訳並列データセット

1ヶ月前

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

13日前

ViMUビデオメタファー理解データセット

1ヶ月前

MemLensマルチモーダル長コンテキストベンチマークデータセット

1ヶ月前

乳がん：マルチモーダル融合データセット

2ヶ月前

OpenMementos コンテキストメモリ圧縮データセット

2ヶ月前

BRIGHT災害建物評価データセット

8日前

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

中国語 DeepSeek R1 蒸留データ DeepSeek-R1 蒸留データセットに基づく 11 万の中国語

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

引用

AIでAIを構築

HyperAI Newsletters

Command Palette

中国語 DeepSeek R1 蒸留データ DeepSeek-R1 蒸留データセットに基づく 11 万の中国語

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

FigureBench科学イラスト生成ベンチマークデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

乳がん：マルチモーダル融合データセット

OpenMementos コンテキストメモリ圧縮データセット

BRIGHT災害建物評価データセット

AIでAIを構築

HyperAI Newsletters

Command Palette

中国語 DeepSeek R1 蒸留データ DeepSeek-R1 蒸留データセットに基づく 11 万の中国語

※本データセットはオンライン利用に対応しておりますが、ここをクリックしてジャンプしてください。

引用

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

FigureBench科学イラスト生成ベンチマークデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

乳がん：マルチモーダル融合データセット

OpenMementos コンテキストメモリ圧縮データセット

BRIGHT災害建物評価データセット

AIでAIを構築

HyperAI Newsletters

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

FigureBench科学イラスト生成ベンチマークデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

乳がん：マルチモーダル融合データセット

OpenMementos コンテキストメモリ圧縮データセット

BRIGHT災害建物評価データセット

関連データセット

MAKIEVAL 多言語文化知識評価データセット

SAM 3Dアーティストオブジェクト 3Dオブジェクト再構築データセット

Nemotron-SFT-Math-v4 数学的推論SFTデータセット

FigureBench科学イラスト生成ベンチマークデータセット

SMOL多言語翻訳並列データセット

chi-bench 医療インテリジェントエージェントベンチマーク評価データセット

ViMUビデオメタファー理解データセット

MemLensマルチモーダル長コンテキストベンチマークデータセット

乳がん：マルチモーダル融合データセット

OpenMementos コンテキストメモリ圧縮データセット

BRIGHT災害建物評価データセット