COIG-CQIA 高质量中文指令微调数据集

COIG-CQIA 全称为 Chinese Open Instruction Generalist – Quality is All You Need, 是一个开源的高质量指令微调数据集,旨在为中文 NLP 社区提供高质量且符合人类交互行为的指令微调数据。 COIG-CQIA 以中文互联网获取到的问答及文章作为原始数据,经过深度清洗、重构及人工审核构建而成。
本项目受 LIMA: Less Is More for Alignment 等研究启发,使用少量高质量的数据即可让大语言模型学习到人类交互行为,因此在数据构建中十分注重数据的来源、质量与多样性,数据集详情请见数据介绍以及研究团队的论文。
数据收集
- 研究团队在中文互联网上的多个出处收集了诸多由人工编写的文本数据,以此保证了数据的多样与丰富。
- 数据的来源不单有问答社区(如知乎、思否、豆瓣、小红书、弱智吧等等),还有维基类的知识平台(例如百度百科),各种类型的考试资料(诸如中高考试题、专业资格考试题目),以及现存的 NLP 数据集。
- 在收集的时候,着重挑选能够体现真实中文用户互动模式的相关数据,用于加强模型对现实世界语言运用的理解。
COIG-CQIA.torrent
做种 2正在下载 1已完成 198总下载次数 396