Ensemble De Données Textuelles Ouvertes À Grande Échelle Common Corpus
Date
URL de publication
Catégories
Common Corpus est un ensemble de données textuelles ouvertes à grande échelle, et les résultats des articles associés sont les suivants :Common Corpus : la plus grande collection de données éthiques pour la préparation au LLMCet ensemble de données contient uniquement des données libres de droits ou sous licence afin d'éviter tout risque de propriété intellectuelle. Il s'agit actuellement du plus grand ensemble de données textuelles sous licence libre.
L'ensemble de données contient 2 000 milliards de jetons, couvrant des livres, des publications scientifiques, des codes, des documents juridiques et d'autres domaines. Les principales langues sont l'anglais et le français. Il comprend également 8 langues (plus de 10 milliards de jetons) et 33 langues (plus d'un milliard de jetons).
Sous-ensemble principal de l'ensemble de données :
- OpenCulture : Livres du domaine public, journaux (par exemple Wikisource, Projet Gutenberg) et documents historiques avec corrections OCR.
- Gouvernement ouvert : documents juridiques et administratifs (par exemple, rapports de la SEC, dépôts auprès de l'OMC, données du Parlement européen).
- OpenSource : code GitHub de haute qualité, les 801 meilleures soumissions de haute qualité examinées par l'outil ArmoRM.
- OpenScience : Ressources académiques telles qu'OpenAlex, qui conservent des informations structurées telles que des formules et des graphiques.
- OpenWeb : textes Web tels que Wikipédia, YouTube Commons, Stack Exchange, etc.
- OpenSemantic : transcription en langage naturel de triplets sémantiques de Wikidata, prenant en charge plus de 300 langues.