HyperAI

Ensemble De Données Chinois Complet À Grande Échelle SkyPile-150B

Date

il y a un an

Organisation

URL de publication

huggingface.co

Aide au téléchargement

SkyPile-150B est un ensemble complet de données chinoises à grande échelle conçu spécifiquement pour la pré-formation de grands modèles linguistiques.Il provient d’un grand nombre de pages Web chinoises accessibles au public. La qualité de l'ensemble de données est garantie grâce à un filtrage rigoureux, une déduplication poussée et un filtrage approfondi des données sensibles. En outre, les chercheurs ont également utilisé des outils avancés tels que fastText et BERT pour filtrer les données de mauvaise qualité.

La partie publique de l'ensemble de données SkyPile-150B contient environ 233 millions de pages Web, chacune contenant en moyenne plus de 1 000 caractères chinois. L'ensemble de données contient environ 150 milliards de jetons et 620 Go de données en texte brut au total.