Inkrementeller Vortrainingsdatensatz Für Firefly Chinese Llama2
Datum
vor 2 Jahren
Größe
9.02 GB
Veröffentlichungs-URL
Tags
Kategorien
Der Datensatz ist Firefly-LLaMA2-Chinesisches Projekt Die inkrementellen Vortrainingsdaten umfassen insgesamt etwa 22 GB Text und umfassen hauptsächlich Open-Source-Datensätze wie CLUE, ThucNews, CNews, COIG, Wikipedia sowie alte Gedichte, Prosa, klassisches Chinesisch usw., die vom Forschungsteam gesammelt wurden. Die Datenverteilung ist in der folgenden Abbildung dargestellt.

firefly-pretrain-dataset.torrent
Seeding 1Herunterladen 0Abgeschlossen 127Gesamtdownloads 159