HyperAI

Ensemble De Données De Pré-formation Incrémentielle Firefly Chinese Llama2

Date

il y a un an

Taille

9.02 GB

URL de publication

huggingface.co

L'ensemble de données est Projet Firefly-LLaMA2-Chinois Les données de pré-formation incrémentielles totalisent environ 22 Go de texte, comprenant principalement des ensembles de données open source tels que CLUE, ThucNews, CNews, COIG, Wikipedia et des poèmes anciens, de la prose, du chinois classique, etc. collectés par l'équipe de recherche. La distribution des données est illustrée dans la figure ci-dessous.

firefly-pretrain-dataset.torrent
Partage 1Téléchargement 1Terminés 79Téléchargements totaux 109
  • firefly-pretrain-dataset/
    • README.md
      1.04 KB
    • README.txt
      2.09 KB
      • data/
        • firefly-pretrain-dataset.zip
          9.02 GB