Date

il y a 2 ans

Organisation

Licence

Non-Commercial

Balises

Common Corpus est un vaste ensemble de données textuelles, ouvert et autorisé, de plus de 2 000 milliards de jetons, publié par PleIAs en 2024. Il se compose de cinq sous-ensembles distincts couvrant divers types de textes, notamment des livres, des journaux, des articles scientifiques, des documents gouvernementaux et juridiques, des codes, etc. Ces cinq sous-ensembles sont :

OpenCulture:Contient des livres du domaine public, des journaux et du contenu Wikisource.
Gouvernement ouvert:Contient des documents financiers et juridiques, tels que ceux de la SEC et de l'OMC.
OpenSource:Contient du code de haute qualité sur GitHub.
OpenScience:Contient du contenu académique tel que Open Alex et des articles en français.
OpenWeb:Contient du contenu provenant de sites tels que Wikipédia, YouTube Commons et Stack Exchange. Les données du Common Corpus peuvent être utilisées à des fins commerciales et non commerciales et prennent en charge le filtrage des données par langue et par année. Bien que l’ensemble de données ait été débarrassé de tout contenu hautement toxique et de toute information personnellement identifiable, certains biais et informations sensibles peuvent encore exister. La publication de l’ensemble de données est accompagnée d’un rapport technique détaillé, garantissant transparence et reproductibilité. Common Corpus est soutenu par plusieurs organisations et communautés, notamment l'AI Alliance, Jean Zay et le programme Nvidia Inception.

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

il y a 3 mois

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

il y a 8 jours

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

il y a 8 jours

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

il y a 8 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Discuter sur Discord

Date

il y a 2 ans

Organisation

Licence

Non-Commercial

Balises

LLM

Traitement Du Langage Naturel

Génération De Code

OpenCulture:Contient des livres du domaine public, des journaux et du contenu Wikisource.
Gouvernement ouvert:Contient des documents financiers et juridiques, tels que ceux de la SEC et de l'OMC.
OpenSource:Contient du code de haute qualité sur GitHub.
OpenScience:Contient du contenu académique tel que Open Alex et des articles en français.
OpenWeb:Contient du contenu provenant de sites tels que Wikipédia, YouTube Commons et Stack Exchange. Les données du Common Corpus peuvent être utilisées à des fins commerciales et non commerciales et prennent en charge le filtrage des données par langue et par année. Bien que l’ensemble de données ait été débarrassé de tout contenu hautement toxique et de toute information personnellement identifiable, certains biais et informations sensibles peuvent encore exister. La publication de l’ensemble de données est accompagnée d’un rapport technique détaillé, garantissant transparence et reproductibilité. Common Corpus est soutenu par plusieurs organisations et communautés, notamment l'AI Alliance, Jean Zay et le programme Nvidia Inception.

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

il y a 3 mois

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

il y a 8 jours

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

il y a 8 jours

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

il y a 8 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Corpus Commun

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Corpus Commun

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Corpus Commun

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro

undefined

Nemotron Personas France (Ensemble De Données De Personas Synthétiques Français)

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données d'évaluation Complète En Contexte Long LongBench-Pro