FM-IQA 多语种问答数据集

FM-IQA 全称 Freestyle Multilingual Image Question Answering,是一个问答数据集,包含 15 万张图像和 31 万个自由式中文问答对及其英文翻译。该数据集可用于训练和评估 mQA 模型。该模型可用于回答关于图像内容的问题,答案可…

How2QA 视频+语言数据集

How2QA 是一个视频+语言学习框架数据集。数据集将同一组选定的视频片段呈现给另一组 AMT 工作人员进行多选择问答标注。每位工作人员被分配一个视频片段,并被要求根据四个准备好的回答(一个正确答案和三个分散注意力答案)写一个问题。对工作人员隐藏视频叙述,以确保收集的问答对不受字…

COCO-QA 问答数据集

这是一个可视化问答数据集,这些问答都是根据 MS-COCO 中的图像描述自动生成的。该数据集可用于解决基于图像问答之类的问题。 该数据集包括: 123,287 张图像78,736 个训练题38,948 个测试题四种问题类型:物体、数字、颜色、位置答案均只用一个词描述

OK-VQA 问答数据集

OK-VQA 全称 Outside Knowledge Visual Question Answering,包括 14,000 多个需要外部知识才能回答的问题。 该数据集被用于解决基于知识的视觉问答任务。该数据集基于 VQA 数据集,原数据集中图像内容并不足以回答问题,新数据集鼓…

EQA 问答数据集

EQA 全称 Embodied Question Answering,是一个基于 House3D 的视觉问答数据集。在环境中任意位置的 agent 在得到一个问题后,能够自己在环境中寻找有用的信息并对该问题作出回答。比如:Q: 汽车是什么颜色的?为了回答这个问题,agent 必须…

Referlt3D 语言数据集

Referlt3D 数据集适用于 3D visual grounding 及 3D dense captioning 任务,包括 2 个大规模 visio-linguistic 互补的数据集: Sr3D 数据集:包含 83.5K 基于模板的句子,利用细粒度对象类之间的空间关系,定…

HoME 智能问答数据集

HoME 全称 Household Multimodal Environment,是一个多模态环境数据集,旨在帮助智能主体 (artificial agent) 在现实环境中从视觉、音频、语义、物理学及与物体或其他主体的交互中学习。 HoME 整合了基于 SUNCG 数据集的 4…

DAQUAR 真实世界图像问答数据集

DAQUAR,全称 DAtaset for QUestion Answering on Real-world images,是一个关于图像的人类问答的数据集。该数据集的图像来自于 NYU-Depth v2 数据集,都是关于室内场景的 RGBD 图像,其中 795 张用于训练,65…

DocVQA 文档开放式问答数据集

DocVQA 是一个关于文档图像信息提取的开放式问答数据集。该数据集在对文件结构理解的问题上进行了改进。数据集包含在 12000 多个文件图像上定义了的 5 万个问题。

VCR 视觉常识推理数据集

VCR 全称 Visual Commonsense Reasoning,是一个用于视觉常识推理的大规模数据集。该数据集提出了关于图像的具有挑战性的问题,机器需要完成两个子任务:正确回答问题以及提供理由证明其答案的合理性。 VCR 数据集包含大量问题,其中 212K 个用于训练,2…

MovieQA 电影问答数据集

MovieQA 是一个关于电影的大规模问答数据集,可用于评估视频和文本的自动故事理解能力。该数据集包含来自 408 部电影的 14,944 个多项选择题,具有高度语义多样性,每个问题包括五个选项,其中只有一个是正确答案。 回答这些问题可参考多种信源:视频片段、字幕、故事情节、子集…

VisDial 图像对话数据集

VisDial 全称 Visual Dialog,是一个包含基于 MS COCO 数据集图像的人工标注问题的数据集。 该数据集是通过在亚马逊土耳其机器人上让两个受试者就一张图片进行聊天而开发的。其中一人充当提问者,另一人充当回答者。提问者只能看到图像的文本描述(即来自 …

HotpotQA 问答数据集

HotpotQA 数据集是一个在英文维基百科上收集的大规模问答数据集,包括 11.3 万个众包问题,要回答这些问题,需要参照两篇维基百科文章的介绍段落。每个问题都包含两个黄金段落 (gold paragraph) 以及部分段落中的句子列表,这些句子列表中提供的支持性事实,被认定为…

DuConv 对话数据集

DuConv 是一个基于电影和明星领域的数据集,包括票房、导演、评论等信息。 该数据集包括 30k 个对话,大约 120k 个对话回合。其中 20k 个对话为训练集,2k 个对话为开发集,8k 个对话用于构建测试样本。对话集和开发集中的每个对话都包含对话目的、背景知识和…