CNN/DailyMail-Nachrichtenartikel-Datensatz
Datum
Größe
Veröffentlichungs-URL
Kategorien
Der Datensatz enthält über 300.000 einzigartige Nachrichtenartikel, die von Journalisten von CNN und Daily Mail verfasst wurden. Die aktuelle Version unterstützt extraktive und abstraktive Zusammenfassungen, die ursprüngliche Version wurde jedoch für maschinelles Lesen und Verstehen sowie die abstrakte Beantwortung von Fragen erstellt. Der Zweck dieses Datensatzes besteht darin, bei der Entwicklung von Modellen zu helfen, die lange Textabsätze in ein oder zwei Sätzen zusammenfassen können, eine Aufgabe, die für die effiziente Darstellung von Informationen aus großen Textmengen nützlich ist.
Datenfelder
id
: Eine Zeichenfolge, die den SHA1-Hash im Hexadezimalformat der URL enthält, von der die Story abgerufen werden sollarticle
: Eine Zeichenfolge, die den Text des Nachrichtenartikels enthälthighlights
: Eine Zeichenfolge, die die vom Autor des Artikels verfassten Highlights des Artikels enthält
Datensegmentierung
Der CNN/DailyMail-Datensatz ist in drei Teile unterteilt: Training, Validierung und Test. Im Folgenden finden Sie die Statistiken der Version 3.0.0 des Datensatzes.
Datensatzsegmentierung | Anzahl der Instanzen im Split |
---|---|
Zug | 287,113 |
Validierung | 13,368 |
Prüfen | 11,490 |
Datensatzerstellung
Entstehungsgeschichte
Version 1.0.0 zielt darauf ab, große Mengen echter Trainingsdaten in natürlicher Sprache zu nutzen, um überwachte neuronale Ansätze für maschinelles Lesen und Beantworten von Fragen zu unterstützen, und hat ungefähr 313.000 einzigartige Artikel und fast 1 Million Cloze-Fragen veröffentlicht, die zu den Artikeln gehören. In den Versionen 2.0.0 und 3.0.0 wurde die Struktur des Datensatzes geändert, um eine Zusammenfassung anstelle der Beantwortung von Fragen zu unterstützen. Version 3.0.0 bietet eine nicht anonymisierte Version der Daten, während die beiden vorherigen Versionen vorverarbeitet wurden, um benannte Entitäten durch eindeutige Identifikationsbezeichnungen zu ersetzen.
Quelldaten
Erste Datenerfassung und Normalisierung
Die Daten bestehen aus Nachrichtenartikeln und hervorgehobenen Sätzen. Im Frage-Antwort-Setting unserer Daten wird der Artikel als Kontext verwendet und Entitäten werden nacheinander in den hervorgehobenen Sätzen ausgeblendet, wodurch Cloze-Fragen generiert werden, bei denen das Ziel des Modells darin besteht, richtig zu erraten, welche Entität im Kontext in der Hervorhebung ausgeblendet wurde. In der Zusammenfassungseinstellung werden die markierten Sätze zu einer Zusammenfassung des Artikels aneinandergereiht. Die CNN-Artikel wurden zwischen April 2007 und April 2015 geschrieben. Die DailyMail-Artikel wurden zwischen Juni 2010 und April 2015 geschrieben.
Der Code für die ursprüngliche Datenerhebung ist verfügbar unter https://github.com/deepmind/rc-data Gefunden auf. Der Artikel wurde mit der Wayback Machine hochgeladen www.cnn.com>Undwww.dailymail.co.uk> Dateidownload. Wenn ein Artikel mehr als 2.000 Tags umfasst, wird er nicht in die Sammlung der Version 1.0.0 aufgenommen.