icwb2-data 中文分词数据集

icwb2-data数据集是由北京大学、香港城市大学、台湾CKIP, Academia Sinica及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中AS和CityU为繁体中文数据集,PK和MSR为简体中文数据集。

Aligned Hansards of the 36th Parliament of Canada 自然语言数据集

Aligned Hansards of the 36th Parliament of Canada 数据集来自第 36 届加拿大议会的官方记录,其由记录中的 130 万对对齐文本块数据组成。 该数据集由 USC 信息科学研究所的自然语言组于 2001 年提供。

The AQUAINT Corpus of English News Text 英文新闻专线文本数据集

The AQUAINT Corpus of English News Text 数据集由英文新闻专线的文本数据组成,主要用于文本摘要。 该数据集中包括大约 3.75 亿个字,其来源分别为新华社、纽约时报新闻服务以及美联社 Worldstream 新闻服务,它由 Linguisti…

Legal Case Reports DataSet 法律案件数据集

Legal Case Reports 是澳大利亚联邦法院的案件数据集,主要用于文本摘要。 该数据集包含 2006 年至 2009 年的所有案例,来源为 AustL II,发布者将其用于构建实验摘要和引文分析,每个文件中均包含流星语、引文句子、引文标语和引文类别。 该数据集由新南威…

WikiText Long Term Dependency Language Modeling Dataset 长期依赖语言建模数据集

WikiText 长期依赖语言建模数据集包含 1 亿个英文词汇,其来自于 Wikipedia 优质文章和标杆文章。 该数据集分为 WikiText-2 和 WikiText-103 两个版本,其相较于 PTB 词库规模更为庞大,并且每个词汇还保留相关的原始文章,这适用于需要长时依…

20 Newsgroups 新闻组文档数据集

20 Newsgroups 是由约 20,000 个新闻文档组成的数据集,目前已经成为机器学习中文本应用实验的流行数据集 。 该数据集在 20 个不同的新闻组中均匀分布,其也是被用于文本分类、文本挖据和信息检索研究的国际标准数据集之一。 20 Newsgroups 数据集由 Ke…