Firefly 中文 Llama2 增量预训练数据集

日期

1 年前

大小

9.02 GB

发布地址

huggingface.co

标签

该数据集为 Firefly-LLaMA2-Chinese 项目 的增量预训练数据,一共约 22GB 文本,主要包含 CLUE 、 ThucNews 、 CNews 、 COIG 、维基百科等开源数据集,以及研究团队收集的古诗词、散文、文言文等,数据分布如下图。

firefly-pretrain-dataset.torrent

做种 2

下载中 1

已完成 33

总下载 81

  • firefly-pretrain-dataset/
    • README.md
      1.04 KB
    • README.txt
      2.09 KB
      • data/
        • firefly-pretrain-dataset.zip
          9.02 GB