VQA 全称 Visual question answering,HowToVQA69M 是一个视频问答数据集,共包含 69,270,581 个问答,其规模比现有视频问答数据集 VideoQA 大两倍。 平均每个原始视频会产生 43 个视频片段,每个片段 12.1 秒并与 1.2…
机构: Inria Paris
iVQA 视频问答数据集
iVQA 全称 Instructional Video Question Answering,是一个开放式的视频问答数据集,具有减少的语言偏差和高质量的人工标注。 该数据集包含 10,000 个视频片段,每个片段包含 1 个问题和 5 个答案,且每个问题都必须借助视频才能回答。