HyperAIHyperAI

Command Palette

Search for a command to run...

Corpus Commun

Discuter sur Discord

Date

il y a un an

Organisation

Licence

Non-Commercial

Common Corpus est un vaste ensemble de données textuelles, ouvert et autorisé, de plus de 2 000 milliards de jetons, publié par PleIAs en 2024. Il se compose de cinq sous-ensembles distincts couvrant divers types de textes, notamment des livres, des journaux, des articles scientifiques, des documents gouvernementaux et juridiques, des codes, etc. Ces cinq sous-ensembles sont :

  • OpenCulture:Contient des livres du domaine public, des journaux et du contenu Wikisource.
  • Gouvernement ouvert:Contient des documents financiers et juridiques, tels que ceux de la SEC et de l'OMC.
  • OpenSource:Contient du code de haute qualité sur GitHub.
  • OpenScience:Contient du contenu académique tel que Open Alex et des articles en français.
  • OpenWeb:Contient du contenu provenant de sites tels que Wikipédia, YouTube Commons et Stack Exchange.

Les données du Common Corpus peuvent être utilisées à des fins commerciales et non commerciales et prennent en charge le filtrage des données par langue et par année. Bien que l’ensemble de données ait été débarrassé de tout contenu hautement toxique et de toute information personnellement identifiable, certains biais et informations sensibles peuvent encore exister. La publication de l’ensemble de données est accompagnée d’un rapport technique détaillé, garantissant transparence et reproductibilité. Common Corpus est soutenu par plusieurs organisations et communautés, notamment l'AI Alliance, Jean Zay et le programme Nvidia Inception.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp