BookCorpus 是一个曾经流行的大型文本语料库,经常用于语句编码/解码的无监督学习。 但是原作者已不再提供 BookCorpus 的下载。 目前这个 BookCorpus 数据集大部分数据源来自 smashwords.com 的免费书籍,与原始的 BookCorpus 几乎…
分类: 文本摘要
NLPCC2016 新闻数据集
NLPCC2016数据集与流行的新闻数据集不同,使用更多来自新浪微博的非正式文本。训练和测试数据由来自不同主题的微博组成,如金融、体育、娱乐等。该数据集为utf-8编码,可被用于中文分词任务
icwb2-data 中文分词数据集
icwb2-data数据集是由北京大学、香港城市大学、台湾CKIP, Academia Sinica及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中AS和CityU为繁体中文数据集,PK和MSR为简体中文数据集。
Aligned Hansards of the 36th Parliament of Canada 自然语言数据集
Aligned Hansards of the 36th Parliament of Canada 数据集来自第 36 届加拿大议会的官方记录,其由记录中的 130 万对对齐文本块数据组成。 该数据集由 USC 信息科学研究所的自然语言组于 2001 年提供。
The AQUAINT Corpus of English News Text 英文新闻专线文本数据集
The AQUAINT Corpus of English News Text 数据集由英文新闻专线的文本数据组成,主要用于文本摘要。 该数据集中包括大约 3.75 亿个字,其来源分别为新华社、纽约时报新闻服务以及美联社 Worldstream 新闻服务,它由 Linguisti…
Legal Case Reports DataSet 法律案件数据集
Legal Case Reports 是澳大利亚联邦法院的案件数据集,主要用于文本摘要。 该数据集包含 2006 年至 2009 年的所有案例,来源为 AustL II,发布者将其用于构建实验摘要和引文分析,每个文件中均包含流星语、引文句子、引文标语和引文类别。 该数据集由新南威…
WikiText Long Term Dependency Language Modeling Dataset 长期依赖语言建模数据集
WikiText 长期依赖语言建模数据集包含 1 亿个英文词汇,其来自于 Wikipedia 优质文章和标杆文章。 该数据集分为 WikiText-2 和 WikiText-103 两个版本,其相较于 PTB 词库规模更为庞大,并且每个词汇还保留相关的原始文章,这适用于需要长时依…
20 Newsgroups 新闻组文档数据集
20 Newsgroups 是由约 20,000 个新闻文档组成的数据集,目前已经成为机器学习中文本应用实验的流行数据集 。 该数据集在 20 个不同的新闻组中均匀分布,其也是被用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。 20 Newsgroups 数据集由 Ke…