MS-Celeb-1M 名人图片数据集

MS - Celeb - 1M Dataset 是由全世界 100 万位名人图片组成的数据集,其主要用于身份鉴定研究,训练集通过收集名单中流行程度在前 10 万的名人,然后利用搜索引擎为每个名人提供约 100 张图像,进而产生 1000 万张网络图像。 该数据集由微软于 2016…

Maluuba NewsQA 机器阅读理解数据集

Maluuba News QA 是一种用于机器阅读理解的数据集,其包含开发能够回答人类问题和推理问题的相关算法,该数据集包含 12 万问答对,均基于人类自然语言编写。 Maluuba News QA 数据集由微软于 2016 年发布,相关论文有《NewsQA: A Machine…

MSMARCO 机器阅读理解数据集

MSMARCO 是机器阅读理解数据集,其包含的 1,010,916 个匿名问题均来自 Bing 的搜索查询日志,日志中均包含 AI 生成的答案和 182,669 条人为重写的答案,该数据集还包含从 3,563,535 个文档中提取的 8,841,823 个段落。 MSMARCO …

MNIST 手写数字数据集

MNIST Dataset 是一个手写数字数据集,其包含 60,000 个示例训练集和 10,000 个示例测试集,它主要用于机器视觉领域的图像分类,该数据集中的数字已经过尺寸标准化处理,并以固定尺寸的图像为中心。 MNIST Dataset 由纽约大学库兰特研究所、谷歌纽约实验…

COCO 大型图像数据集

COCO 是一个大型图像数据集,其被用于机器视觉领域的对象检测与分割、人物关键点检测、填充分割与字幕生成。该数据集以场景理解为主,图像中的目标则通过精确的分割进行位置标定。 该数据集具有目标分割、情景感知和超像素分割三个特征,其包含 33 万张图像、150 万目标实例、80 个目…