HyperAI超神经

Firefly 中文 Llama2 增量预训练数据集

日期

1 年前

大小

9.02 GB

发布地址

huggingface.co

标签

该数据集为 Firefly-LLaMA2-Chinese 项目 的增量预训练数据,一共约 22GB 文本,主要包含 CLUE 、 ThucNews 、 CNews 、 COIG 、维基百科等开源数据集,以及研究团队收集的古诗词、散文、文言文等,数据分布如下图。

firefly-pretrain-dataset.torrent
做种 1正在下载 1已完成 73总下载次数 107
  • firefly-pretrain-dataset/
    • README.md
      1.04 KB
    • README.txt
      2.09 KB
      • data/
        • firefly-pretrain-dataset.zip
          9.02 GB