Command Palette
Search for a command to run...
SkyPile-150B: Umfassender Groß Angelegter Chinesischer Datensatz
SkyPile-150B ist ein umfassender chinesischer Datensatz im großen Maßstab, der speziell für das Vortraining großer Sprachmodelle entwickelt wurde.Die Quellen sind eine große Zahl öffentlich zugänglicher chinesischer Internet-Webseiten. Die Qualität des Datensatzes wird durch strenge Filterung, umfassende Deduplizierung und sorgfältige Filterung sensibler Daten sichergestellt. Darüber hinaus verwendeten die Forscher auch fortschrittliche Tools wie FastText und BERT, um Daten von geringer Qualität herauszufiltern.
Der öffentliche Teil des SkyPile-150B-Datensatzes enthält ungefähr 233 Millionen Webseiten, von denen jede durchschnittlich mehr als 1.000 chinesische Schriftzeichen enthält. Der Datensatz enthält insgesamt etwa 150 Milliarden Token und 620 GB an Klartextdaten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.