Couplet-Dataset 对联数据集

该对联数据集共包含 70 余万条对联数据,按字切分,并分为训练数据集、测试数据集以及一份词汇表。其中,训练数据集、测试数据集又分别分为上联和下联两部分。 数据集来自于冯重朴_梨味斋散叶的博主的新浪博客,被广泛应用于 AI 对联数据集模型的训练。

icwb2-data 中文分词数据集

icwb2-data数据集是由北京大学、香港城市大学、台湾CKIP, Academia Sinica及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中AS和CityU为繁体中文数据集,PK和MSR为简体中文数据集。

Amazon Fine Food Reviews 食品评论数据集

Amazon Fine Food Reviews 是由亚马逊的食品评论组成的数据集,其包含截止 2012 年 10 月在亚马逊网站上的 568454 条食品评论信息,其包括用户信息、评论内容、食品信息和食品评分等数据。 该数据集由 Kaggle 于 2013 年发布,相关论文有《…

DBPedia Ontology 大型多域本体数据集

DBPedia Ontology 由 14 个不重叠分类的 40000 个训练样本和 5000 个测试样本组成,其使用来自维基百科派生的大型多域本体。 该数据集的英文版目前描述了 458 万个「事物」以及 5.83 亿个「事实」,其由康奈尔大学于 2015 年发布。

Brown Corpus 布朗语料库

布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸文本、书籍以及政府文件,包含 1,014,312 个单词的它主要用于语言建模。 原始语料库包含手动注释的句子、标记边界和单词类注释,转换的语料库则包含基于布朗语料库 TEI / XML 版本重建的完整文本,并通过 OLiA…

WikiText Long Term Dependency Language Modeling Dataset 长期依赖语言建模数据集

WikiText 长期依赖语言建模数据集包含 1 亿个英文词汇,其来自于 Wikipedia 优质文章和标杆文章。 该数据集分为 WikiText-2 和 WikiText-103 两个版本,其相较于 PTB 词库规模更为庞大,并且每个词汇还保留相关的原始文章,这适用于需要长时依…

Gutenberg Dataset 电子书数据集

Gutenberg 数据集包含 142 位作者的 3036 本英文书籍,是 Project Gutenberg 语料库的一小部分,主要被用于语言建模。 该数据集由密克罗夫特人工智能于 2014 年 4 月发布,主要发布人为 Matthew D. Scholefield,相关论文有…

Stanford Sentiment Treebank 标准情感数据集

Stanford Sentiment Treebank 是一个标准情感数据集,主要用于情感分类,其中每个句子分析树的节点均有细粒度的情感注解。 该数据集由斯坦福大学的 NLP 组发布,其中句子和短语共计 239232 条,相较于忽略单词顺序的大多数情绪预测系统,这套深度学习模型建…

MSRA-TD500 文本检测数据集

MSRA - TD500 图像数据集被用于评估文本检测算法基准,它包含多种类和多国语言的 500 张自然图像,分别是 300 张训练图和 200 张测试图。 该数据集使用袖珍相机从室内和室外场景拍摄,其中室内图像以标志,门板和警示牌为主,室外图像以复杂背景下的导板和广告牌为主,图…

SynthText 自然场景图像数据集

SynthText 数据集由包含单词的自然场景图像组成,其主要运用于自然场景中的文本检测,该数据集由 80 万个图像组成,大约有 800 万个合成单词实例。 每个文本实例均使用文本字符串、字级和字符级边界框进行注释。 SynthText 数据集由牛津大学工程科学系视觉几何组的 G…

RCTW-17 大型图像数据集

RCTW-17 是一项阅读中文文字图像的比赛,全称为 ICDAR2017 Competition on Reading Chinese Text in the Wild,其中 RCTW-17 数据集是这项比赛的基础。 该数据集包含超过 12,000 张图像,主要用于文本检测和文本…