日期
大小
发布地址
huggingface.co
标签
大模型
分类
文本分类
文本生成
该数据集为 Firefly-LLaMA2-Chinese 项目 的增量预训练数据,一共约 22GB 文本,主要包含 CLUE 、 ThucNews 、 CNews 、 COIG 、维基百科等开源数据集,以及研究团队收集的古诗词、散文、文言文等,数据分布如下图。
做种 1
下载中 1
已完成 28
总下载 76