Ensemble De Données D'articles D'actualité CNN/DailyMail
Date
Taille
URL de publication
Catégories
L'ensemble de données contient plus de 300 000 articles d'actualité uniques rédigés par des journalistes de CNN et du Daily Mail. La version actuelle prend en charge le résumé extractif et abstrait, mais la version originale a été créée pour la lecture et la compréhension automatiques et la réponse aux questions abstraites. L’objectif de cet ensemble de données est d’aider à développer des modèles capables de résumer de longs paragraphes de texte en une ou deux phrases, une tâche utile pour présenter efficacement des informations à partir de grandes quantités de texte.
Champs de données
id
: Une chaîne contenant le hachage SHA1 au format hexadécimal de l'URL à partir de laquelle récupérer l'histoirearticle
: Une chaîne contenant le corps de l'article d'actualitéhighlights
: Une chaîne contenant les points saillants de l'article écrits par l'auteur de l'article
Segmentation des données
L'ensemble de données CNN/DailyMail est divisé en 3 parties : formation, validation et test. Voici les statistiques de la version 3.0.0 de l'ensemble de données.
Segmentation des ensembles de données | Nombre d'instances dans la division |
---|---|
Former | 287,113 |
Validation | 13,368 |
Test | 11,490 |
Création d'un jeu de données
Histoire de la création
La version 1.0.0 vise à exploiter de grandes quantités de données réelles de formation en langage naturel pour soutenir les approches neuronales supervisées pour la lecture automatique et la réponse aux questions, et a publié environ 313 000 articles uniques et près d'un million de questions de type cloze qui accompagnent les articles. Les versions 2.0.0 et 3.0.0 ont modifié la structure de l'ensemble de données pour prendre en charge le résumé au lieu de la réponse aux questions. La version 3.0.0 fournit une version non anonymisée des données, tandis que les deux versions précédentes ont été prétraitées pour remplacer les entités nommées par des étiquettes d'identification uniques.
Données sources
Collecte initiale des données et normalisation
Les données sont constituées d’articles de presse et de phrases surlignées. Dans le cadre de questions-réponses de nos données, l'article est utilisé comme contexte et les entités sont cachées dans les phrases surlignées une par une, générant des questions de type cloze où le but du modèle est de deviner correctement quelle entité dans le contexte a été cachée dans la mise en évidence. Dans le cadre du résumé, les phrases mises en évidence sont concaténées pour former un résumé de l'article. Les articles de CNN ont été écrits entre avril 2007 et avril 2015. Les articles du DailyMail ont été écrits entre juin 2010 et avril 2015.
Le code de la collecte de données originale est disponible à l'adresse https://github.com/deepmind/rc-data Trouvé sur. L'article a été téléchargé à l'aide de la Wayback Machine www.cnn.com>etwww.dailymail.co.uk> Téléchargement de fichier. Si un article dépasse 2 000 balises, il ne sera pas inclus dans la collection de la version 1.0.0.