HyperAI

Das AQUAINT-Korpus Englischer Nachrichtentexte Englischer Nachrichtenzeilentext-Datensatz

Download-Hilfe

Der Datensatz „AQUAINT Corpus of English News Text“ besteht aus Textdaten englischer Nachrichtenagenturen und wird hauptsächlich zur Textzusammenfassung verwendet.

Der Datensatz, der etwa 375 Millionen Wörter der Nachrichtenagentur Xinhua, des New York Times News Service und des Associated Press Worldstream News Service enthält, wurde vom Linguistic Data Consortium (LDC) für das AQUAINT-Projekt zusammengestellt und soll in einer offiziellen Benchmark-Evaluierung durch das National Institute of Standards and Technology (NIST) verwendet werden.

Der Datensatz AQUAINT Corpus of English News Text wurde im September 2002 von der University of Pennsylvania veröffentlicht, Hauptherausgeber war David Graff.