NCIFD 民族文化微调数据集
NCIFD (National Culture Instruction-Following Dataset) 是由中央民族大学国家语言资源监测与研究少数民族语言中心构造的一个面向大模型的民族文化微调数据集,包含 151,159 条数据,其中公开 10,000 条数据,涵盖建筑、服饰、工艺、饮食、礼仪、语言、习俗 7 大领域的内容。
数据集主要由两部分组成:
- NCSI (National Culture Self-Instruct):
- 通过 Self-Instruct 框架,利用大语言模型生成数据集,并对生成的数据进行质量筛查。
- NCQA (National Culture Self-QA):
- 通过 Self-QA 框架,利用大语言模型生成 QA 对,并对生成的 QA 对进行质量筛查,确保问题的清晰度、答案的完整性、准确性和明确性。
NCIFD.torrent
做种 3正在下载 1已完成 26总下载次数 73