Ensemble De Données arXiv De 1,1 To : 1,7 Million d'articles, Vous Pouvez Voir Votre Prochaine Vie

il y a 6 ans

Récemment, arXiv a regroupé plus de 1,7 million d'articles dans un ensemble de données et l'a placé sur la plateforme Kaggle, ce qui facilite l'accès et le téléchargement des articles à l'avenir. L'ensemble de données fait actuellement environ 1,1 To et continuera de croître avec des mises à jour hebdomadaires.

Plus de 1,7 million de documents universitaires, d'une taille de 1,1 To, il s'agit d'un ensemble de données récemment ouvert par arXix sur Kaggle. Lorsque les internautes ont posé des questions à ce sujet, ils se sont exclamés : « C'est trop cool ! »

**Les internautes ont commenté dans la section commentaires : C'est génial !**

L'équipe de compilation de l'ensemble de données a déclaré qu'elle espérait inspirer les chercheurs concernés à explorer des technologies d'apprentissage automatique plus riches et à proposer davantage de découvertes et d'innovations.

Les ensembles de données ouverts facilitent les recherches sur papier

Depuis près de 30 ans, arXiv offre au public et aux communautés de recherche un accès libre à des articles scientifiques couvrant un large éventail de domaines.Des vastes branches de la physique aux nombreuses branches de l’informatique, en passant par toutes les disciplines telles que les mathématiques, les statistiques, le génie électrique, la biologie quantitative et l’économie.

Il existe de nombreux articles de recherche sur arXiv, et même si de nombreuses personnes en bénéficient,Cependant, il est souvent signalé qu'il présente des défauts tels qu'une navigation, une recherche et un tri peu pratiques.Certaines personnes ont même trouvé des conseils pour rechercher des articles sur arXiv et les ont partagés avec vous.

Ainsi, pour rendre arXiv plus accessible, l'Université Cornell propose désormais un ensemble de données arXiv gratuit et ouvert sur Kaggle.

**L'Université Cornell a publié un article de blog annonçant la nouvelle**

L'ensemble de données contient 1,7 million d'articles universitaires, ainsi que des éléments liés aux articles (fonctionnalités), tels que le titre de l'article, l'auteur, la catégorie, le résumé et le PDF en texte intégral.

Eleonora Presani, directrice exécutive d'arXiv, a déclaré : « Disposer de l'intégralité du corpus arXiv sur Kaggle accroît considérablement le potentiel des articles arXiv. En fournissant l'ensemble des données sur Kaggle, nous ne nous contentons plus de permettre aux utilisateurs d'acquérir des connaissances en lisant ces articles.Plus important encore, les données et informations derrière arXiv devraient être mises à la disposition du public dans un format lisible par machine. "

**Eleonora Presani est la première directrice exécutive d'arXiv**

Presani a ajouté : « ArXiv est plus qu'un simple dépôt d'articles ; c'est une plateforme de partage de connaissances. Cela nous oblige à innover dans la façon dont nous présentons et interprétons les connaissances disponibles. Les utilisateurs de Kaggle peuvent contribuer à repousser les limites de cette innovation, et cela devient pour nous un nouveau canal de collaboration avec la communauté. »

Regardez : Que contient l'ensemble de données arXiv ?

Les informations de base de l'ensemble de données arXiv sont les suivantes :

Ensemble de données arXiv

Publié par : Paul Ginsparg, Moonshot Factory, Jack Hidary

Quantité incluse :Plus de 1,7 million de documents universitaires

Format des données :json

Taille des données :1,1 To

Heure de sortie :Août 2020

Adresse de téléchargement :https://www.kaggle.com/Cornell-University/arxiv

Actuellement, l'ensemble de données arXiv fournit un fichier de métadonnées au format json, qui contient les entrées pertinentes pour chaque article, comme suit :

id : adresse d'accès au papier, qui peut être utilisée pour accéder au papier ;
soumissionnaire : soumissionnaire du document ;
auteurs : auteurs de l’article ;
titre : titre de l'article ;
commentaires : autres informations telles que le nombre de pages et de figures dans l’article ;
journal-ref : informations sur la revue dans laquelle l'article a été publié ;
doi : identifiant d'objet numérique ;
résumé : Résumé de l'article ;
catégories : les catégories ou balises auxquelles appartient l’article dans arXiv ;
versions : versions papier.

Vous pouvez facilement parcourir, filtrer et vérifier ces vastes documents.

**L'ensemble de données a été mis à jour vers 5 versions**

De plus, les utilisateurs peuvent accéder à chaque article directement sur arXiv via les deux liens suivants :

https://arxiv.org/abs/{id} : la page de l'article, y compris le résumé et d'autres liens ;
https://arxiv.org/pdf/{id} : Page de téléchargement du document PDF.

L'accès en masse est également disponible : le PDF complet est disponible gratuitement sur le bucket gs://arxiv-dataset sur Google Cloud Storage, ou via l'API Google (documentation json et documentation xml).

Les fichiers PDF papier sont regroupés dans plusieurs fichiers .tar.gz dans le dossier tarpdfs, et l'ensemble de données a une taille d'environ 1,1 To. Les détails sont les suivants (voici les 1ère, 2ème et 3ème parties des champs en janvier 2010 (1001)) :

tarpdfs/arXiv_pdf_1001_001.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_001.tar.gz)tarpdfs/arXiv_pdf_1001_002.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_002.tar.gz)tarpdfs/arXiv_pdf_1001_003.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_003.tar.gz)

Les utilisateurs peuvent également télécharger des données sur leur machine locale à l’aide d’outils tels que gsutil.

**Exemple de métadonnées dans un ensemble de données**

Cependant, quels sont les scénarios d’utilisation spécifiques de cet ensemble de données ? De nombreux internautes ont déjà des idées, comme la modélisation de sujets et l’utilisation des données pour former GPT-3.

arXiv : un immense référentiel de documents universitaires

Les étudiants des milieux de la recherche scientifique et universitaire doivent être familiarisés avec arXiv.

Il s'agit d'un site Web qui rassemble des prépublications d'articles en physique, mathématiques, informatique et biologie. Il fournit non seulement une plateforme aux chercheurs scientifiques pour « réserver des idées », mais sert également d'immense bibliothèque de ressources permettant à chacun de rechercher et de lire des articles.

En octobre 2008, arXiv.org avait collecté plus de 500 000 prépublications ; à la fin de 2014, sa collection atteignait 1 million ;En octobre 2016, les soumissions sur arXiv dépassaient les 10 000 par mois.

**Il y a actuellement environ 1,7446 million d'articles universitaires sur arXiv**

arXiv a été créé par le physicien Paul Ginsbag en 1991. Son intention initiale était de collecter des prépublications d'articles de physique, et s'est ensuite étendue à d'autres domaines tels que l'astronomie et les mathématiques.

arXiv était à l'origine hébergé au Laboratoire national de Los Alamos (LANL), il s'appelait donc à ses débuts la « base de données de préimpression LANL ». Actuellement, arXiv est basé à l'Université Cornell et dispose de sites miroirs dans le monde entier. Le site a été renommé arXiv.org en 1999.

En termes simples, arXiv est un site Web utilisé pour « réserver une place ». Afin d'éviter que leurs idées ne soient plagiées par d'autres avant que l'article ne soit inclus, les chercheurs publieront leurs brouillons sur arXiv pour prouver leur originalité.

Références :

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv?select=arxiv-metadata-oai-snapshot.json

https://zh.wikipedia.org/wiki/ArXiv

-- sur--

Associé Actualités

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

ICLR 2026 | Réduction De 125 Fois Du Nombre De Paramètres Entraînables Par Tâche ! La Nouvelle Méthode Task Tokens Aide l'intelligence Incarnée À Améliorer Sa Capacité À Gérer Des Tâches complexes.

En Seulement 30 Minutes, l'agent Biologique multi-agent Robin a Intégré Avec Succès 550 Articles De Recherche, Établissant Une Boucle De Recherche Autonome Et Identifiant Des Thérapies Candidates Pour La DMLA diabétique.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Compilation De Jeux De Données | Jeux De Données d'évaluation d'agents d'IA : 10 Jeux De Données Publiés Par Microsoft, l'Université De Pékin, l'Université De Hong Kong, l'Université Jiao Tong De Shanghai, etc., Couvrant Tout, De La Mémoire À Longue Portée À l'exécution De Tâches Du Monde réel.

HyperAI

Ensemble De Données arXiv De 1,1 To : 1,7 Million d'articles, Vous Pouvez Voir Votre Prochaine Vie

il y a 6 ans

Nouvelles Des Grandes Usines

Les ensembles de données ouverts facilitent les recherches sur papier

Ainsi, pour rendre arXiv plus accessible, l'Université Cornell propose désormais un ensemble de données arXiv gratuit et ouvert sur Kaggle.

Regardez : Que contient l'ensemble de données arXiv ?

Les informations de base de l'ensemble de données arXiv sont les suivantes :

Ensemble de données arXiv

Publié par : Paul Ginsparg, Moonshot Factory, Jack Hidary

Quantité incluse :Plus de 1,7 million de documents universitaires

Format des données :json

Taille des données :1,1 To

Heure de sortie :Août 2020

Adresse de téléchargement :https://www.kaggle.com/Cornell-University/arxiv

Actuellement, l'ensemble de données arXiv fournit un fichier de métadonnées au format json, qui contient les entrées pertinentes pour chaque article, comme suit :

id : adresse d'accès au papier, qui peut être utilisée pour accéder au papier ;
soumissionnaire : soumissionnaire du document ;
auteurs : auteurs de l’article ;
titre : titre de l'article ;
commentaires : autres informations telles que le nombre de pages et de figures dans l’article ;
journal-ref : informations sur la revue dans laquelle l'article a été publié ;
doi : identifiant d'objet numérique ;
résumé : Résumé de l'article ;
catégories : les catégories ou balises auxquelles appartient l’article dans arXiv ;
versions : versions papier.

Vous pouvez facilement parcourir, filtrer et vérifier ces vastes documents.

De plus, les utilisateurs peuvent accéder à chaque article directement sur arXiv via les deux liens suivants :

https://arxiv.org/abs/{id} : la page de l'article, y compris le résumé et d'autres liens ;
https://arxiv.org/pdf/{id} : Page de téléchargement du document PDF.

tarpdfs/arXiv_pdf_1001_001.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_001.tar.gz)tarpdfs/arXiv_pdf_1001_002.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_002.tar.gz)tarpdfs/arXiv_pdf_1001_003.tar.gz  (gs://arxiv-dataset/tarpdfs/arXiv_pdf_1001_003.tar.gz)

Les utilisateurs peuvent également télécharger des données sur leur machine locale à l’aide d’outils tels que gsutil.

arXiv : un immense référentiel de documents universitaires

Les étudiants des milieux de la recherche scientifique et universitaire doivent être familiarisés avec arXiv.

Références :

https://blogs.cornell.edu/arxiv/2020/08/05/leveraging-machine-learning-to-fuel-new-discoveries-with-the-arxiv-dataset/

https://www.kaggle.com/Cornell-University/arxiv?select=arxiv-metadata-oai-snapshot.json

https://zh.wikipedia.org/wiki/ArXiv

-- sur--

Associé Actualités

Les Emojis peuvent-ils Contrôler La Génération De La Parole ? Irodori-TTS Est Un Système De Synthèse Vocale Japonais Basé Sur L’architecture RF-DiT ; Ensembles De Données Sur L’eczéma Et La Teigne : Soutien À La Classification D’images Médicales Et À L’apprentissage Par transfert.

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

ICLR 2026 | Réduction De 125 Fois Du Nombre De Paramètres Entraînables Par Tâche ! La Nouvelle Méthode Task Tokens Aide l'intelligence Incarnée À Améliorer Sa Capacité À Gérer Des Tâches complexes.

En Seulement 30 Minutes, l'agent Biologique multi-agent Robin a Intégré Avec Succès 550 Articles De Recherche, Établissant Une Boucle De Recherche Autonome Et Identifiant Des Thérapies Candidates Pour La DMLA diabétique.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Compilation De Jeux De Données | Jeux De Données d'évaluation d'agents d'IA : 10 Jeux De Données Publiés Par Microsoft, l'Université De Pékin, l'Université De Hong Kong, l'Université Jiao Tong De Shanghai, etc., Couvrant Tout, De La Mémoire À Longue Portée À l'exécution De Tâches Du Monde réel.

Command Palette

Ensemble De Données arXiv De 1,1 To : 1,7 Million d'articles, Vous Pouvez Voir Votre Prochaine Vie

Les ensembles de données ouverts facilitent les recherches sur papier

Regardez : Que contient l'ensemble de données arXiv ?

arXiv : un immense référentiel de documents universitaires

Command Palette

Ensemble De Données arXiv De 1,1 To : 1,7 Million d'articles, Vous Pouvez Voir Votre Prochaine Vie

Les ensembles de données ouverts facilitent les recherches sur papier

Regardez : Que contient l'ensemble de données arXiv ?

arXiv : un immense référentiel de documents universitaires

Associé Actualités

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

ICLR 2026 | Réduction De 125 Fois Du Nombre De Paramètres Entraînables Par Tâche ! La Nouvelle Méthode Task Tokens Aide l'intelligence Incarnée À Améliorer Sa Capacité À Gérer Des Tâches complexes.

En Seulement 30 Minutes, l'agent Biologique multi-agent Robin a Intégré Avec Succès 550 Articles De Recherche, Établissant Une Boucle De Recherche Autonome Et Identifiant Des Thérapies Candidates Pour La DMLA diabétique.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Command Palette

Ensemble De Données arXiv De 1,1 To : 1,7 Million d'articles, Vous Pouvez Voir Votre Prochaine Vie

Les ensembles de données ouverts facilitent les recherches sur papier

Regardez : Que contient l'ensemble de données arXiv ?

arXiv : un immense référentiel de documents universitaires

Associé Actualités

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

ICLR 2026 | Réduction De 125 Fois Du Nombre De Paramètres Entraînables Par Tâche ! La Nouvelle Méthode Task Tokens Aide l'intelligence Incarnée À Améliorer Sa Capacité À Gérer Des Tâches complexes.

En Seulement 30 Minutes, l'agent Biologique multi-agent Robin a Intégré Avec Succès 550 Articles De Recherche, Établissant Une Boucle De Recherche Autonome Et Identifiant Des Thérapies Candidates Pour La DMLA diabétique.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Associé Actualités

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

ICLR 2026 | Réduction De 125 Fois Du Nombre De Paramètres Entraînables Par Tâche ! La Nouvelle Méthode Task Tokens Aide l'intelligence Incarnée À Améliorer Sa Capacité À Gérer Des Tâches complexes.

En Seulement 30 Minutes, l'agent Biologique multi-agent Robin a Intégré Avec Succès 550 Articles De Recherche, Établissant Une Boucle De Recherche Autonome Et Identifiant Des Thérapies Candidates Pour La DMLA diabétique.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.

Associé Actualités

ByteDance Met En Open Source Lance, Un Modèle 3B Englobant La Compréhension, La Génération Et l'édition ; l'Université Nationale De Singapour Propose l'ensemble De Données ViMU : Couvrant 588 Vidéos Et Des Réponses À Des Questions Non verbales.

EnergAIzer, Un Framework d'estimation De La Puissance GPU Développé Par Le MIT Et d'autres, Effectue Des Prédictions En Moyenne En 1,8 Seconde Avec Une Erreur d'environ 81 TP3T.

L'université Cornell a Développé EMSeek, Une Plateforme multi-agents Capable De Transformer Des Images De Microscope Électronique En Informations Sur Les Matériaux En Seulement 2 À 5 minutes.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

ICLR 2026 | Réduction De 125 Fois Du Nombre De Paramètres Entraînables Par Tâche ! La Nouvelle Méthode Task Tokens Aide l'intelligence Incarnée À Améliorer Sa Capacité À Gérer Des Tâches complexes.

En Seulement 30 Minutes, l'agent Biologique multi-agent Robin a Intégré Avec Succès 550 Articles De Recherche, Établissant Une Boucle De Recherche Autonome Et Identifiant Des Thérapies Candidates Pour La DMLA diabétique.

MiniCPM5-1B, Entraîné À l'aide De RL+OPD, Atteint Des Performances De Pointe (SOTA) Sur De Multiples Tâches Complexes ; l'ensemble De Données CHI-Bench Pour l'évaluation Des Agents Médicaux, Conçu Pour l'automatisation Des Processus De Soins De Santé Complexes, a Été publié.