MSRA Hand 手部跟踪数据集

MSRA Hand 是一个用于手部跟踪的数据集。收集过程中使用英特尔的创意交互式手势相机总共捕捉到 6 名受试者的右手。每个受试者都被要求在 400 帧的视频序列中做出各种快速手势。为了考虑不同的手的尺寸,研究人员为受试者的手指定了全局手模型比例。

How2QA 视频+语言数据集

How2QA 是一个视频+语言学习框架数据集。数据集将同一组选定的视频片段呈现给另一组 AMT 工作人员进行多选择问答标注。每位工作人员被分配一个视频片段,并被要求根据四个准备好的回答(一个正确答案和三个分散注意力答案)写一个问题。对工作人员隐藏视频叙述,以确保收集的问答对不受字…

VALUE 视频语言理解评估数据集

VALUE 全称 Video-And-Language Understanding Evaluation,是一个关于视频和语言理解评估的数据集。该数据集是 11 个 VidL(视频和语言)数据集的集合,可用于3个常见任务:文本到视频检索;视频问题解答以及视频字幕。VALUE目标是…

7-Scenes 室内场景数据集

7-Scenes 数据集包含跟踪的 RGB-D 相机帧。该数据集包含 7 种不同室内环境,每种环境包含 500-1000 张图像视频序列。所有场景均由手持式 Kinect RGB-D 相机以 640×480 分辨率记录。该数据集通过 Kinect Fusion 获得 ground…

MSRDailyActivity3D 日常活动数据集

MSRDailyActivity3D 是一个由 Kinect 设备获取的日常活动数据的集合,用以进行人体行为识别的研究。该数据集的活动样本总数为 320 个,涵盖了喝酒、吃饭、看书、打电话、弹吉他等 16 种日常活动的类型。该数据集旨在将人类在客厅的日常活动都囊括进来,当志愿者站…

FER+ 面部表情识别数据集

FER+ 全称 Face Expression Recognition Plus,是原始 FER 数据集的扩展。 该数据集为原数据集提供了一组新标签,每张图片都由 10 个众包人员进行了标注,这不仅为面部表情识别提供了更好的 ground truth,也使研究人员能够更准确地估计…

Microsoft COCO Captions 图片描述数据集

Microsoft COCO Captions 数据集为 Microsoft Common Objects in COntext (COCO) 数据集中的图像提供了人工生成的图片描述。该数据集为超过 33 万张图片提供超过 150 万条描述。 对于训练集和验证集中的每张图像,都人…

MSR-VTT 视频字幕数据集

MSR-VTT 全称 Microsoft Research Video to Text,是一个用于开放域的大规模视频字幕数据集。 该数据集包括来自 20 个类别的 10,000 个视频片段,每个视频片段都带有由 Amazon Mechanical Turks 标注的 2…

MS-Celeb-1M 名人图片数据集

MS - Celeb - 1M Dataset 是由全世界 100 万位名人图片组成的数据集,其主要用于身份鉴定研究,训练集通过收集名单中流行程度在前 10 万的名人,然后利用搜索引擎为每个名人提供约 100 张图像,进而产生 1000 万张网络图像。 该数据集由微软于 2016…

Maluuba NewsQA 机器阅读理解数据集

Maluuba News QA 是一种用于机器阅读理解的数据集,其包含开发能够回答人类问题和推理问题的相关算法,该数据集包含 12 万问答对,均基于人类自然语言编写。 Maluuba News QA 数据集由微软于 2016 年发布,相关论文有《NewsQA: A Machine…

MSMARCO 机器阅读理解数据集

MSMARCO 是机器阅读理解数据集,其包含的 1,010,916 个匿名问题均来自 Bing 的搜索查询日志,日志中均包含 AI 生成的答案和 182,669 条人为重写的答案,该数据集还包含从 3,563,535 个文档中提取的 8,841,823 个段落。 MSMARCO …

MNIST 手写数字数据集

MNIST Dataset 是一个手写数字数据集,其包含 60,000 个示例训练集和 10,000 个示例测试集,它主要用于机器视觉领域的图像分类,该数据集中的数字已经过尺寸标准化处理,并以固定尺寸的图像为中心。 MNIST Dataset 由纽约大学库兰特研究所、谷歌纽约实验…