Date

il y a un an

URL du document

Balises

Common Corpus est un ensemble de données textuelles ouvertes à grande échelle, et les résultats des articles associés sont les suivants :Common Corpus : la plus grande collection de données éthiques pour la préparation au LLMCet ensemble de données contient uniquement des données libres de droits ou sous licence afin d'éviter tout risque de propriété intellectuelle. Il s'agit actuellement du plus grand ensemble de données textuelles sous licence libre. L'ensemble de données contient 2 000 milliards de jetons, couvrant des livres, des publications scientifiques, des codes, des documents juridiques et d'autres domaines. Les principales langues sont l'anglais et le français. Il comprend également 8 langues (plus de 10 milliards de jetons) et 33 langues (plus d'un milliard de jetons).

Sous-ensemble principal de l'ensemble de données :

OpenCulture : Livres du domaine public, journaux (par exemple Wikisource, Projet Gutenberg) et documents historiques avec corrections OCR.
Gouvernement ouvert : documents juridiques et administratifs (par exemple, rapports de la SEC, dépôts auprès de l'OMC, données du Parlement européen).
OpenSource : code GitHub de haute qualité, les 801 meilleures soumissions de haute qualité examinées par l'outil ArmoRM.
OpenScience : Ressources académiques telles qu'OpenAlex, qui conservent des informations structurées telles que des formules et des graphiques.
OpenWeb : textes Web tels que Wikipédia, YouTube Commons, Stack Exchange, etc.
OpenSemantic : transcription en langage naturel de triplets sémantiques de Wikidata, prenant en charge plus de 300 langues.

Ce jeu de données est fourni par les utilisateurs de la communauté et est destiné uniquement à des fins éducatives et informatives. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour examen et retrait rapides.

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

il y a 2 mois

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

il y a 5 mois

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

il y a 4 mois

Ensemble De Données De Génération Vidéo De Robot RoVid-X

il y a 2 jours

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

il y a 2 jours

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

il y a 2 jours

Ensemble De Données d'inférence Multitâche TxT360-3efforts

il y a 2 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Discuter sur Discord

Date

il y a un an

URL du document

arxiv.org

Balises

LLM

Traitement Du Langage Naturel

Génération De Texte

Entraînement Du Modèle

Sous-ensemble principal de l'ensemble de données :

OpenCulture : Livres du domaine public, journaux (par exemple Wikisource, Projet Gutenberg) et documents historiques avec corrections OCR.
Gouvernement ouvert : documents juridiques et administratifs (par exemple, rapports de la SEC, dépôts auprès de l'OMC, données du Parlement européen).
OpenSource : code GitHub de haute qualité, les 801 meilleures soumissions de haute qualité examinées par l'outil ArmoRM.
OpenScience : Ressources académiques telles qu'OpenAlex, qui conservent des informations structurées telles que des formules et des graphiques.
OpenWeb : textes Web tels que Wikipédia, YouTube Commons, Stack Exchange, etc.
OpenSemantic : transcription en langage naturel de triplets sémantiques de Wikidata, prenant en charge plus de 300 langues.

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

il y a 2 mois

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

il y a 3 mois

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

il y a 3 mois

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

il y a 3 mois

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

il y a 2 jours

Ensemble De Données EEG THINGS-EEG

il y a 5 mois

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

il y a 5 mois

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

il y a 5 mois

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

il y a 4 mois

Ensemble De Données De Génération Vidéo De Robot RoVid-X

il y a 2 jours

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

il y a 2 jours

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

il y a 2 jours

Ensemble De Données d'inférence Multitâche TxT360-3efforts

il y a 2 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Ensemble De Données Textuelles Ouvertes À Grande Échelle Common Corpus

Sous-ensemble principal de l'ensemble de données :

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données Textuelles Ouvertes À Grande Échelle Common Corpus

Sous-ensemble principal de l'ensemble de données :

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Ensemble De Données Textuelles Ouvertes À Grande Échelle Common Corpus

Sous-ensemble principal de l'ensemble de données :

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données d'inférence Multitâche TxT360-3efforts

Créer de l'IA avec l'IA

HyperAI Newsletters

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données d'inférence Multitâche TxT360-3efforts

undefined

Ensemble De Données De Référence Pour La Recherche Approfondie Interdisciplinaire DRACO

Ensemble De Données ToolACE Pour l'apprentissage Des Outils Complexes

Ensemble De Données d'enseignement Et d'entraînement Préalables Sutra 10B

Ensemble De Données Groundsource Sur Les Événements d'inondation Mondiaux

Ensemble De Données Synthétiques d'inférence Générale CHIMERA

Ensemble De Données EEG THINGS-EEG

Ensemble De Données De Magnétoencéphalographie THINGS-MEG

Ensemble De Données d'imagerie Par Résonance Magnétique Fonctionnelle THINGS-fMRI

Ensemble De Données De Référence Pour l'évaluation De l'apprentissage Contextuel CL-bench

Ensemble De Données De Génération Vidéo De Robot RoVid-X

Ensemble De Données d'inférence Mathématique Nemotron-Math-v2

Ensemble De Données d'évaluation De La Compréhension De Scènes Complexes De GroundingME

Ensemble De Données d'inférence Multitâche TxT360-3efforts