HyperAI

Inkrementeller Vortrainingsdatensatz Für Firefly Chinese Llama2

Datum

vor einem Jahr

Größe

9.02 GB

Veröffentlichungs-URL

huggingface.co

Der Datensatz ist Firefly-LLaMA2-Chinesisches Projekt Die inkrementellen Vortrainingsdaten umfassen insgesamt etwa 22 GB Text und umfassen hauptsächlich Open-Source-Datensätze wie CLUE, ThucNews, CNews, COIG, Wikipedia sowie alte Gedichte, Prosa, klassisches Chinesisch usw., die vom Forschungsteam gesammelt wurden. Die Datenverteilung ist in der folgenden Abbildung dargestellt.

firefly-pretrain-dataset.torrent
Seeding 1Herunterladen 1Abgeschlossen 79Gesamtdownloads 109
  • firefly-pretrain-dataset/
    • README.md
      1.04 KB
    • README.txt
      2.09 KB
      • data/
        • firefly-pretrain-dataset.zip
          9.02 GB