Command Palette

Search for a command to run...

Chinese DeepSeek R1 Distill Data 110k 中文基于 DeepSeek-R1 蒸馏数据集

日期

9 个月前

大小

231.15 MB

许可协议

Apache 2.0

* 该数据集支持在线使用,点击此处跳转

本数据集为中文开源蒸馏满血 R1 的数据集,数据集中不仅包含 math 数据,还包括大量的通用类型数据,总数量为 110K 。

开源该数据集的原因是 R1 的效果十分强大,并且基于 R1 蒸馏数据 SFT 的小模型也展现出了强大的效果,但检索发现,大部分开源的 R1 蒸馏数据集均为英文数据集。同时,R1 的报告中展示,蒸馏模型中同时也使用了部分通用场景数据集。为了帮助大家更好地复现 R1 蒸馏模型的效果,特此开源中文数据集。

该中文数据集中的数据分布如下:

  • Math:共计 36,987 个样本,
  • Exam:共计 2,440 个样本,
  • STEM:共计 12,000 个样本,
  • General:共计 58,573,包含弱智吧、逻辑推理、小红书、知乎、 Chat 等。

字段说明:

  • input:输入
  • reasoning_content:思考
  • content:输出
  • repo_name:数据源
Chinese-DeepSeek-R1-Distill-data-110k.torrent
做种 1正在下载 0已完成 168总下载次数 451
  • Chinese-DeepSeek-R1-Distill-data-110k/
    • README.md
      1.74 KB
    • README.txt
      3.48 KB
      • data/
        • Chinese-DeepSeek-R1-Distill-110k.zip
          231.15 MB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供