HyperAIHyperAI

Command Palette

Search for a command to run...

SkyPile-150B: Umfassender Groß Angelegter Chinesischer Datensatz

Datum

vor 2 Jahren

Organisation

Treten Sie der Discord-Community bei

SkyPile-150B ist ein umfassender chinesischer Datensatz im großen Maßstab, der speziell für das Vortraining großer Sprachmodelle entwickelt wurde.Die Quellen sind eine große Zahl öffentlich zugänglicher chinesischer Internet-Webseiten. Die Qualität des Datensatzes wird durch strenge Filterung, umfassende Deduplizierung und sorgfältige Filterung sensibler Daten sichergestellt. Darüber hinaus verwendeten die Forscher auch fortschrittliche Tools wie FastText und BERT, um Daten von geringer Qualität herauszufiltern.

Der öffentliche Teil des SkyPile-150B-Datensatzes enthält ungefähr 233 Millionen Webseiten, von denen jede durchschnittlich mehr als 1.000 chinesische Schriftzeichen enthält. Der Datensatz enthält insgesamt etwa 150 Milliarden Token und 620 GB an Klartextdaten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp