Inkrementeller Vortrainingsdatensatz Für Firefly Chinese Llama2
Datum
vor einem Jahr
Größe
9.02 GB
Veröffentlichungs-URL
Tags
Kategorien
Der Datensatz ist Firefly-LLaMA2-Chinesisches Projekt Die inkrementellen Vortrainingsdaten umfassen insgesamt etwa 22 GB Text und umfassen hauptsächlich Open-Source-Datensätze wie CLUE, ThucNews, CNews, COIG, Wikipedia sowie alte Gedichte, Prosa, klassisches Chinesisch usw., die vom Forschungsteam gesammelt wurden. Die Datenverteilung ist in der folgenden Abbildung dargestellt.

firefly-pretrain-dataset.torrent
Seeding 1Herunterladen 1Abgeschlossen 79Gesamtdownloads 109