HyperAI

SkyPile-150B: Umfassender Groß Angelegter Chinesischer Datensatz

Datum

vor einem Jahr

Organisation

Veröffentlichungs-URL

huggingface.co

Kategorien

Download-Hilfe

SkyPile-150B ist ein umfassender chinesischer Datensatz im großen Maßstab, der speziell für das Vortraining großer Sprachmodelle entwickelt wurde.Die Quellen sind eine große Zahl öffentlich zugänglicher chinesischer Internet-Webseiten. Die Qualität des Datensatzes wird durch strenge Filterung, umfassende Deduplizierung und sorgfältige Filterung sensibler Daten sichergestellt. Darüber hinaus verwendeten die Forscher auch fortschrittliche Tools wie FastText und BERT, um Daten von geringer Qualität herauszufiltern.

Der öffentliche Teil des SkyPile-150B-Datensatzes enthält ungefähr 233 Millionen Webseiten, von denen jede durchschnittlich mehr als 1.000 chinesische Schriftzeichen enthält. Der Datensatz enthält insgesamt etwa 150 Milliarden Token und 620 GB an Klartextdaten.