Firefly 中文 Llama2 增量预训练数据集
该数据集为 Firefly-LLaMA2-Chinese 项目 的增量预训练数据,一共约 22GB 文本,主要包含 CLUE 、 ThucNews 、 CNews 、 COIG 、维基百科等开源数据集,以及研究团队收集的古诗词、散文、文言文等,数据分布如下图。

firefly-pretrain-dataset.torrent
做种 1正在下载 1已完成 73总下载次数 107
该数据集为 Firefly-LLaMA2-Chinese 项目 的增量预训练数据,一共约 22GB 文本,主要包含 CLUE 、 ThucNews 、 CNews 、 COIG 、维基百科等开源数据集,以及研究团队收集的古诗词、散文、文言文等,数据分布如下图。