Le Corpus AQUAINT De Textes D'actualité En Anglais Ensemble De Données De Textes D'actualité En Anglais
Date
URL de publication
Catégories
L'ensemble de données AQUAINT Corpus of English News Text se compose de données textuelles provenant de fils d'actualité anglais et est principalement utilisé pour le résumé de texte.
L'ensemble de données, qui comprend environ 375 millions de mots provenant de l'agence de presse Xinhua, du service de presse du New York Times et du service de presse Worldstream de l'Associated Press, a été compilé par le Linguistic Data Consortium (LDC) pour le projet AQUAINT afin d'être utilisé dans une évaluation de référence officielle par le National Institute of Standards and Technology (NIST).
L'ensemble de données AQUAINT Corpus of English News Text a été publié par l'Université de Pennsylvanie en septembre 2002, et le principal éditeur était David Graff.