Chinese Text in the Wild 中文字符数据集

Chinese Text in the Wild 是一个用自然图像中包含的文字创建的大型数据集。该数据集包含 32,285 张带有1,018,402 个中文字符的图像,远远超出了之前的数据集,这些图片来自腾讯街景,从中国数十个不同的城市获取,没有任何特殊目的。 由于其多样性和复杂…

Hateful Memes 多模式仇恨言论数据集

Hateful Memes 是一个用于仇恨言论检测的多模态数据集(图像+文本)。该数据集包含了 Facebook AI 创建的 10,000 多个新的多模态实例。图片由 Getty Images 授权。 数据集中增加了难以识别的例子,使其难以依赖单峰信号,这意味着只有多峰模型才能…

WikiLinks 维基百科链接数据集

WikiLinks 维基百科链接数据集是一个将维基百科的全文按段落、短语或段落本身的一部分进行搜索的数据集。该数据集将维基百科上的每个页面视为代表一个实体(或概念或想法),基于从网络搜索中找到的超链接,并使用锚文本作为提及,最终可以提供大规模不需要人工操作的标记数据。 数据集包括…

EMNIST 手写数字数据集

EMNIST 全称 Extended MNIST,是 NIST Special Database 19 的扩展数据集。这个数据集将图像转换为 28x28 像素的图像格式,以及与 MNIST 数据集匹配的数据集结构。 该数据集的数据量是 MNIST 的 4 倍,包含: EMNIST…

Total-Text 文本检测数据集

Total-Text 是一个文本检测数据集,由 1,555 张图像组成,涵盖超过三种不同的文本方向(水平、多方向和弯曲),可用于解决任意形状文本识别相关问题。 其中,训练集包含1,255 张图像,测试集包含 300 张图像。

USPS 手写数字数据集

USPS 全称 United States Postal Service,这是一个数字识别的数据集,数据由美国邮政署自动扫描信件获得。该数据集共包含了 9,298 个 16x16 像素的灰度样本,其中训练集包含 7,291 个,数据集包含 2,007个,图像均格式居中,标准化并显…

ICDAR_2019_LSVT 数据集

ICDAR 2019-LSVT (Large-scale Street View Text) 是一个大规模场景文本数据集。 该数据集包括 450,000 个带文本的图像,均拍摄自真实街道(如店面、地标等),其中 400,000 个图像为部分标注,作为训练数据;50,000 个图像…

ICDAR_2019_ArT 数据集

ICDAR 2019 ArT 是一个任意形状文本数据集。该数据集包括 10,176 张图像,其中 5603 张图像为训练集,4573 张图像为测试集。 该数据集中的图像源自 TotalText、CTW1500 和 LSVT 三个数据集,其中包含中文文本的部分源自百度街景,并以众包…

Couplet-Dataset 对联数据集

该对联数据集共包含 70 余万条对联数据,按字切分,并分为训练数据集、测试数据集以及一份词汇表。其中,训练数据集、测试数据集又分别分为上联和下联两部分。 数据集来自于冯重朴_梨味斋散叶的博主的新浪博客,被广泛应用于 AI 对联数据集模型的训练。

icwb2-data 中文分词数据集

icwb2-data数据集是由北京大学、香港城市大学、台湾CKIP, Academia Sinica及中国微软研究所联合发布的数据集,用以进行中文分词模型的训练。其中AS和CityU为繁体中文数据集,PK和MSR为简体中文数据集。

Amazon Fine Food Reviews 食品评论数据集

Amazon Fine Food Reviews 是由亚马逊的食品评论组成的数据集,其包含截止 2012 年 10 月在亚马逊网站上的 568454 条食品评论信息,其包括用户信息、评论内容、食品信息和食品评分等数据。 该数据集由 Kaggle 于 2013 年发布,相关论文有《…

DBPedia Ontology 大型多域本体数据集

DBPedia Ontology 由 14 个不重叠分类的 40000 个训练样本和 5000 个测试样本组成,其使用来自维基百科派生的大型多域本体。 该数据集的英文版目前描述了 458 万个「事物」以及 5.83 亿个「事实」,其由康奈尔大学于 2015 年发布。