HyperAI超神経

Firefly Chinese Llama2 増分事前トレーニング データ セット

日付

1年前

サイズ

9.02 GB

データセットは Firefly-LLaMA2-中国語プロジェクト 増分事前トレーニング データ (合計約 22 GB のテキスト) には、主に CLUE、ThucNews、CNews、COIG、Wikipedia などのオープンソース データ セットと、古代詩、散文、古典中国語などが収集されています。研究チームのデータ分布は以下の通り。

firefly-pretrain-dataset.torrent
シーディング 1ダウンロード中 1ダウンロード完了 79総ダウンロード数 109
  • firefly-pretrain-dataset/
    • README.md
      1.04 KB
    • README.txt
      2.09 KB
      • data/
        • firefly-pretrain-dataset.zip
          9.02 GB