OCR 全称 optical character recognition,TextOCR 是用于对任意场景文本进行检测和识别的数据集。TextOCR 为 TextVQA 中的图像提供了约 100 万个高质量的词汇标注,并且能在视觉问答或图像说明等下游任务上实行端到端的推理。 该数…
机构: Facebook AI Research
Common Objects in 3D 常见物体多视角图像数据集
Common Objects in 3D 是常见物体的多视角图像数据集。图像带有摄像机拍摄角度和 ground truth 3D 点云标注。该数据集包含近 19,000 个视频的共 150 万帧。这些视频捕捉了来自50 个 MS-COCO 类别的物体。因此,它在类别和物体的数量上…
Blended Skill Talk 对话数据集
Blended Skill Talk 是一个关于对话的数据集。数据集分析功能如何融合在自然对话中,并比较不同架构和培训方案的性能,是对话代理重要的能力。一个好的开放域对话代理能够将吸引力、知识渊博和富有同情心等品质在对话中融合到一起。该数据集比较不同架构和方案的性能,从简单的模型…
ActivityNet Entities 字幕数据集
ActivityNet-Entities 在ActivityNet Captions字幕数据集的基础上增加了158k边界框标注。每个标注都为一个名词短语。这些数据可用于训练视频描述模型。数据集演示了模型基于视频生成描述的有效性,也展示如何将图像描述应用于 Flickr30k 数据…
Ego4D 第一视角视频数据集
Ego4D 是一个大规模的第一视角视频数据集。该数据集包含超过 3,025 个小时的视频,由来自 9 个国家的 73 个不同地点录制的视频组成,总录制人数达 855 人。 Ego4D 是目前最大的第一视角日常活动视频数据集。一些镜头还包括音频、有关参与者注视焦点位置的数据以及同一…
DensePose 密集姿态估计数据集
DensePose-COCO 是一个大规模的 ground truth 数据集,包含在 50K COCO 图像上手动标注的图像,及其与表面的对应关系。该数据集对 50K 人进行了标注,包含超过 500 万个人工标注的信息。 为了构建此数据集,Facebook AI研究团队邀请了专…