Chinese DeepSeek R1 Distill Data 110k 中文基于 DeepSeek-R1 蒸馏数据集
* 该数据集支持在线使用,点击此处跳转。
本数据集为中文开源蒸馏满血 R1 的数据集,数据集中不仅包含 math 数据,还包括大量的通用类型数据,总数量为 110K 。
开源该数据集的原因是 R1 的效果十分强大,并且基于 R1 蒸馏数据 SFT 的小模型也展现出了强大的效果,但检索发现,大部分开源的 R1 蒸馏数据集均为英文数据集。同时,R1 的报告中展示,蒸馏模型中同时也使用了部分通用场景数据集。为了帮助大家更好地复现 R1 蒸馏模型的效果,特此开源中文数据集。
该中文数据集中的数据分布如下:
- Math:共计 36,987 个样本,
- Exam:共计 2,440 个样本,
- STEM:共计 12,000 个样本,
- General:共计 58,573,包含弱智吧、逻辑推理、小红书、知乎、 Chat 等。
字段说明:
- input:输入
- reasoning_content:思考
- content:输出
- repo_name:数据源
Chinese-DeepSeek-R1-Distill-data-110k.torrent
做种 1正在下载 1已完成 59总下载次数 163