HyperAI

Reuters-21578-Textklassifizierungsdatensatz

Datum

vor 2 Jahren

Größe

7.78 MB

Organisation

AT&T Labs Forschung

Veröffentlichungs-URL

archive.ics.uci.edu

Reuters – 21578 Dataset ist eine Testsammlung für die Textklassifizierungsforschung. Es handelt sich um einen Datensatz mit mehreren Klassen und mehreren Labels, der in den nächsten Jahren voraussichtlich durch RCV1 ersetzt wird. Der Datensatz umfasst 90 Klassen, 7769 Trainingsdateien und 3019 Testdateien. Es ist ein ModApte-Unterverzeichnis des Reuters-21578-Benchmarks.

Reuters – 21578 Der Datensatz wurde ursprünglich 1987 von der Carnegie Group und Reuters während der Entwicklung des Textklassifizierungssystems CONSTRUE gesammelt und beschriftet. Es wurde später im September 1997 von AT&T Labs Research veröffentlicht. Der Hauptherausgeber war David D. Lewis. Die zugehörigen Dokumente sind:

„Automatisiertes Lernen von Entscheidungsregeln zur Textkategorisierung“

„Auf dem Weg zum sprachunabhängigen automatisierten Lernen von Textkategorisierungsmodellen“

„TCS: Eine Shell für inhaltsbasierte Textkategorisierung“

„CONSTRUE/TIS: Ein System zur inhaltsbasierten Indizierung einer Datenbank mit Nachrichtenbeiträgen“

reuters21578.torrent
Seeding 2Herunterladen 0Abgeschlossen 788Gesamtdownloads 2,178
  • reuters21578/
    • README.md
      1.46 KB
    • README.txt
      2.92 KB
      • data/
        • reuters21578.tar.gz
          7.78 MB