HyperAIHyperAI

Command Palette

Search for a command to run...

SkyPile-150B: Umfassender Groß Angelegter Chinesischer Datensatz

Auf Discord diskutieren

SkyPile-150B ist ein umfassender chinesischer Datensatz im großen Maßstab, der speziell für das Vortraining großer Sprachmodelle entwickelt wurde.Die Quellen sind eine große Zahl öffentlich zugänglicher chinesischer Internet-Webseiten. Die Qualität des Datensatzes wird durch strenge Filterung, umfassende Deduplizierung und sorgfältige Filterung sensibler Daten sichergestellt. Darüber hinaus verwendeten die Forscher auch fortschrittliche Tools wie FastText und BERT, um Daten von geringer Qualität herauszufiltern.

Der öffentliche Teil des SkyPile-150B-Datensatzes enthält ungefähr 233 Millionen Webseiten, von denen jede durchschnittlich mehr als 1.000 chinesische Schriftzeichen enthält. Der Datensatz enthält insgesamt etwa 150 Milliarden Token und 620 GB an Klartextdaten.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp