HyperAIHyperAI

Command Palette

Search for a command to run...

Corpus Commun

Date

il y a un an

Organisation

Licence

Non-Commercial

Rejoignez la communauté Discord

Common Corpus est un vaste ensemble de données textuelles, ouvert et autorisé, de plus de 2 000 milliards de jetons, publié par PleIAs en 2024. Il se compose de cinq sous-ensembles distincts couvrant divers types de textes, notamment des livres, des journaux, des articles scientifiques, des documents gouvernementaux et juridiques, des codes, etc. Ces cinq sous-ensembles sont :

  • OpenCulture:Contient des livres du domaine public, des journaux et du contenu Wikisource.
  • Gouvernement ouvert:Contient des documents financiers et juridiques, tels que ceux de la SEC et de l'OMC.
  • OpenSource:Contient du code de haute qualité sur GitHub.
  • OpenScience:Contient du contenu académique tel que Open Alex et des articles en français.
  • OpenWeb:Contient du contenu provenant de sites tels que Wikipédia, YouTube Commons et Stack Exchange.

Les données du Common Corpus peuvent être utilisées à des fins commerciales et non commerciales et prennent en charge le filtrage des données par langue et par année. Bien que l’ensemble de données ait été débarrassé de tout contenu hautement toxique et de toute information personnellement identifiable, certains biais et informations sensibles peuvent encore exister. La publication de l’ensemble de données est accompagnée d’un rapport technique détaillé, garantissant transparence et reproductibilité. Common Corpus est soutenu par plusieurs organisations et communautés, notamment l'AI Alliance, Jean Zay et le programme Nvidia Inception.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Corpus Commun | Ensembles de données | HyperAI