HyperAIHyperAI

Command Palette

Search for a command to run...

Ensemble De Données Chinois Complet À Grande Échelle SkyPile-150B

Date

il y a 2 ans

Organisation

Rejoignez la communauté Discord

SkyPile-150B est un ensemble complet de données chinoises à grande échelle conçu spécifiquement pour la pré-formation de grands modèles linguistiques.Il provient d’un grand nombre de pages Web chinoises accessibles au public. La qualité de l'ensemble de données est garantie grâce à un filtrage rigoureux, une déduplication poussée et un filtrage approfondi des données sensibles. En outre, les chercheurs ont également utilisé des outils avancés tels que fastText et BERT pour filtrer les données de mauvaise qualité.

La partie publique de l'ensemble de données SkyPile-150B contient environ 233 millions de pages Web, chacune contenant en moyenne plus de 1 000 caractères chinois. L'ensemble de données contient environ 150 milliards de jetons et 620 Go de données en texte brut au total.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp