iNat2021 动物图像数据集

iNat2021 是一个大型图像数据集,包含了由科学家收集和标注的来自1万个不同物种的超过 270 万张图像。 为了使数据集更易获取,作者还创建了一个 "迷你 "训练数据集。每个物种有 50 张训练图像,总共有 50 万张训练图像。每个物种有 10 张验证图像,总共有10 万张验…

VQA-HAT 智能问答数据集

VQA-HAT 又称 VQA Human Attention,能根据所询问的问题评估图像的信息区域。康奈尔大学的团队通过让志愿者回答锐化模糊图像的区域,来获得人类视觉注意力图。 该数据集由原始 VQA 数据集中图像上的人类视觉注意力图组成。它包含超过 60k 张的人类视觉注意力图…

QMNIST 大型手写数字数据集

QMNIST 大型手写数字数据集由 NIST Special Database 19 中找到的原始数据重构而成,并且重构了之前 MNIST 数据测试集中丢失的 50,000 张测试图像数据,形成了完整的 QMNIST 数据集。 经过重构算法、距离的最佳匹配和置信度区间的衡量,MN…

STPLS3D 点云数据集

STPLS3D 全称 Semantic Terrain Points Labeling - Synthetic 3D,旨在为语义分割及实例分割任务,提供一个大规模航拍测量数据集(包含合成 & 真实标注的 3D 点云)。 该数据集包含:  1.27 平方公里景观的…

IMDb-Face 大规模噪声控制数据集

IMDb-Face 是用于人脸识别研究的新型大规模噪声控制数据集。该数据集包含约 170 万张人脸和 5.9 万个个体,所有图像均从 IMDb 网站获得。康奈尔大学科研团队从 200 万张原始图片中手动清除获得该数据集。

CASIA-FASD 人脸活体检测数据集

CASIA-FASD 是一个包含了 50 位受试者的小型人脸活体检测数据集。目前人脸活体检测的方式主要有:照片打印、视频回放检测、3D人脸等。康奈尔大学的团队主要通过设计两个 CNN 模型来提高人脸反欺骗方法的通用性和适用性。

CoSal2015 协同显著性检测数据集

CoSal2015 协同显著性检测 (co-saliency detection) 数据集由 50 个类别的 2,015 张图像组成,每个组都受到不同因素的影响,包括复杂环境、遮挡问题、目标外观变化和背景杂乱等等。康奈尔大学发布了该数据集。

BAM! Behance 艺术品数据集

BAM! 全称 Behance Artistic Media,是 Behance 网站当代艺术作品的大规模数据集,该网站包含数百万专业和商业艺术家的作品集。作者用丰富的属性标签(内容、情绪、艺术媒体)标注了 Behance 图像。 数据集包括: 超过 250 万张图像的自动标记二…

Who’s Waldo 图片描述数据集

Who’s Waldo 包含了 270k 个图片-文本对,并自动标注了提到的人名和他们相应的视觉区域之间的对齐关系。 Who’s Waldo 数据集是由 Wikimedia Commons 中免费许可的图片和描述构建的。Who’s Waldo 是一个基准数据集,用于以人为中心的视…

CAD-120 人类活动视频数据集

CAD-120 是一个人类活动 RGB-D 视频序列数据集,这些视频序列由微软 Kinect 传感器记录,包含了 4 名受试者、进行 12 种活动的 120 个视频, 这些活动在不同的环境中进行,如厨房、客厅、办公室等。 该数据集可在人类活动检测机器上测试,旨在探索人类活动在机器…

Watch-n-Patch 动作识别数据集

Watch-n-Patch 数据集的重点是对人类活动进行建模,涵盖在完全无监督的情况下的多种动作。数据由微软 Kinect One 传感器收集,总时长约为 230 分钟,包含 458 段视频。该数据集要求 7 名受试者在 8 个办公室和 5 个具有复杂背景的厨房中进行日常活动。此…

EMNIST 手写数字数据集

EMNIST 全称 Extended MNIST,是 NIST Special Database 19 的扩展数据集。这个数据集将图像转换为 28x28 像素的图像格式,以及与 MNIST 数据集匹配的数据集结构。 该数据集的数据量是 MNIST 的 4 倍,包含: EMNIST…

MOT17 多目标跟踪数据集

MOT17 全称为 Multiple Object Tracking 17,是一个可用于多目标跟踪的数据集。与前一版本 MOT16 类似,该数据集中的挑战包括七个带有行人的室内外公共场所场景。每个场景的视频被分为两个片段,分别用于训练和测试。 该数据集通过 SDP、Faster-…