Firefly Chinese Llama2 増分事前トレーニング データ セット

日期

1 年前

大小

9.02 GB

发布地址

huggingface.co

データセットは Firefly-LLaMA2-中国語プロジェクト 増分事前トレーニング データ (合計約 22 GB のテキスト) には、主に CLUE、ThucNews、CNews、COIG、Wikipedia などのオープンソース データ セットと、古代詩、散文、古典中国語などが収集されています。研究チームのデータ分布は以下の通り。

firefly-pretrain-dataset.torrent

做种 1

下载中 0

已完成 31

总下载 80

  • firefly-pretrain-dataset/
    • README.md
      1.04 KB
    • README.txt
      2.09 KB
      • data/
        • firefly-pretrain-dataset.zip
          9.02 GB