The AQUAINT Corpus of English News Text 英文新闻专线文本数据集

下载帮助

The AQUAINT Corpus of English News Text 数据集由英文新闻专线的文本数据组成,主要用于文本摘要。

该数据集中包括大约 3.75 亿个字,其来源分别为新华社、纽约时报新闻服务以及美联社 Worldstream 新闻服务,它由 Linguistic Data Consortium (LDC) 为 AQUAINT 项目编制,用于国家标准与技术研究所(NIST)进行的官方基准评估。

The AQUAINT Corpus of English News Text 数据集由宾夕法尼亚大学于 2002 年 9 月发布,主发布人为 David Graff 。