HyperAI超神经

Chinese DeepSeek R1 Distill Data 110k 中文基于 DeepSeek-R1 蒸馏数据集

日期

2 个月前

大小

231.15 MB

发布地址

huggingface.co

许可协议

Apache 2.0

* 该数据集支持在线使用,点击此处跳转

本数据集为中文开源蒸馏满血 R1 的数据集,数据集中不仅包含 math 数据,还包括大量的通用类型数据,总数量为 110K 。

开源该数据集的原因是 R1 的效果十分强大,并且基于 R1 蒸馏数据 SFT 的小模型也展现出了强大的效果,但检索发现,大部分开源的 R1 蒸馏数据集均为英文数据集。同时,R1 的报告中展示,蒸馏模型中同时也使用了部分通用场景数据集。为了帮助大家更好地复现 R1 蒸馏模型的效果,特此开源中文数据集。

该中文数据集中的数据分布如下:

  • Math:共计 36,987 个样本,
  • Exam:共计 2,440 个样本,
  • STEM:共计 12,000 个样本,
  • General:共计 58,573,包含弱智吧、逻辑推理、小红书、知乎、 Chat 等。

字段说明:

  • input:输入
  • reasoning_content:思考
  • content:输出
  • repo_name:数据源
Chinese-DeepSeek-R1-Distill-data-110k.torrent
做种 1正在下载 1已完成 59总下载次数 163
  • Chinese-DeepSeek-R1-Distill-data-110k/
    • README.md
      1.74 KB
    • README.txt
      3.48 KB
      • data/
        • Chinese-DeepSeek-R1-Distill-110k.zip
          231.15 MB