HyperAIHyperAI

Command Palette

Search for a command to run...

SkyPile-150B: Umfassender Groß Angelegter Chinesischer Datensatz

Discuss on Discord

SkyPile-150B ist ein umfassender chinesischer Datensatz im großen Maßstab, der speziell für das Vortraining großer Sprachmodelle entwickelt wurde.Die Quellen sind eine große Zahl öffentlich zugänglicher chinesischer Internet-Webseiten. Die Qualität des Datensatzes wird durch strenge Filterung, umfassende Deduplizierung und sorgfältige Filterung sensibler Daten sichergestellt. Darüber hinaus verwendeten die Forscher auch fortschrittliche Tools wie FastText und BERT, um Daten von geringer Qualität herauszufiltern.

Der öffentliche Teil des SkyPile-150B-Datensatzes enthält ungefähr 233 Millionen Webseiten, von denen jede durchschnittlich mehr als 1.000 chinesische Schriftzeichen enthält. Der Datensatz enthält insgesamt etwa 150 Milliarden Token und 620 GB an Klartextdaten.

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
SkyPile-150B: Umfassender Groß Angelegter Chinesischer Datensatz | Datasets | HyperAI