CINIC-10 是一个用于图像分类的数据集。该数据集总共有 27 万张图像,是 CIFAR-10 数据集的 4.5 倍。它是基于 ImageNet 和 CIFAR-10 这两个数据集构建的。该数据集被分成三个相等的子集(训练、验证和测试),每个子集包含 9 万张图像。
机构: University of Edinburgh
Peace Agreements 和平协议数据集
该数据集是爱丁堡大学PA-X和平协议数据库的副本,该数据库是从1990年至2016年1月1日的140多个进程中的1500多个和平协议的储存库。数据集内容主要包括协议文本、签署协议的方案及其他相关元素
MultiSense 词汇消歧数据集
MultiSense 是一个包含 9,504 幅图像的数据集,使用了英语、德语和西班牙语动词对这些图像进行了标注。
WMT 2015 French/English parallel texts 法语/英语平行文本数据集
WMT 2015 French/English parallel texts 是用于训练翻译模型的法语/英语平行文本数据集,它拥有超过 2000 万条法语与英语句子。 本数据集由 Chris Callison-Burch 创建,他在抓取上百万个网页后通过一组简单的启发式算法将法语…
European Parliament Proceedings Parallel Corpus 1996-2011 统计机器翻译语料库
European Parliament Proceedings Parallel Corpus 1996-2011 数据集是一个用于统计机器翻译的语料库,其中 Europarl 平行语料库来源于欧洲议会的程序,它包括 21 种欧洲语言版本: 罗马语(法语,意大利语,西班牙语,葡萄…