HyperAI

Ensemble De Données Du Domaine Public Chinois Common Corpus-zh

Date

il y a un an

Taille

225.16 MB

Organisation

Visage qui fait un câlin

URL de publication

huggingface.co

Common Corpus a été créé conjointement par Pleias, HuggingFace et d'autres organisations.Il s’agit du plus grand ensemble de données du domaine public actuellement disponible.Spécialement conçu pour la formation de grands modèles linguistiques (LLM).L'ensemble de données contient 500 milliards de mots provenant de divers projets de patrimoine culturel à travers le monde.Il comprend plusieurs langues, dont l'anglais, le français, le chinois, l'espagnol, l'allemand et l'italien, et constitue la bibliothèque de ressources linguistiques la plus complète à ce jour.

Il contient le plus grand ensemble de données en anglais à ce jour, comprenant 180 milliards de mots, 21 millions de documents de Chronicling America, un important projet de journal numérisé américain, des cartes de corpus originales de Nomic AI et des données monographiques collectées par Sebastian Majstorovic. De plus, Common Corpus comprend les plus grands ensembles de données ouverts pour le français (110 milliards de mots), l'allemand (30 milliards de mots), l'espagnol, le néerlandais et l'italien, ainsi que certaines langues à faibles ressources qui sont rarement impliquées dans la formation de grands modèles linguistiques.

Le lancement de cet ensemble de données démontre que les LLM peuvent être formés même sans s'appuyer sur du contenu soumis à des droits d'auteur tels que Common Crawl. Son objectif est de construire une puissante plateforme de partage de données d'IA, de simplifier le processus de recherche, d'améliorer la reproductibilité de la recherche, de promouvoir la vulgarisation, la diversité et la démocratisation de l'IA et d'assurer la diffusion des connaissances et l'application de grands modèles.

Common-Corpus-zh.torrent
Partage 1Téléchargement 1Terminés 66Téléchargements totaux 208
  • Common-Corpus-zh/
    • README.md
      1.93 KB
    • README.txt
      3.86 KB
      • data/
        • Chinese-PD.zip
          225.16 MB