HyperAI

Corpus Commun

Date

il y a 5 mois

Organisation

URL de publication

huggingface.co

Licence

非商业用途

Aide au téléchargement

Common Corpus est un vaste ensemble de données textuelles, ouvert et autorisé, de plus de 2 000 milliards de jetons, publié par PleIAs en 2024. Il se compose de cinq sous-ensembles distincts couvrant divers types de textes, notamment des livres, des journaux, des articles scientifiques, des documents gouvernementaux et juridiques, des codes, etc. Ces cinq sous-ensembles sont :

  • OpenCulture:Contient des livres du domaine public, des journaux et du contenu Wikisource.
  • Gouvernement ouvert:Contient des documents financiers et juridiques, tels que ceux de la SEC et de l'OMC.
  • OpenSource:Contient du code de haute qualité sur GitHub.
  • OpenScience:Contient du contenu académique tel que Open Alex et des articles en français.
  • OpenWeb:Contient du contenu provenant de sites tels que Wikipédia, YouTube Commons et Stack Exchange.

Les données du Common Corpus peuvent être utilisées à des fins commerciales et non commerciales et prennent en charge le filtrage des données par langue et par année. Bien que l’ensemble de données ait été débarrassé de tout contenu hautement toxique et de toute information personnellement identifiable, certains biais et informations sensibles peuvent encore exister. La publication de l’ensemble de données est accompagnée d’un rapport technique détaillé, garantissant transparence et reproductibilité. Common Corpus est soutenu par plusieurs organisations et communautés, notamment l'AI Alliance, Jean Zay et le programme Nvidia Inception.