1 个月前

ActivityNet-QA:通过问答理解复杂网络视频的数据集

Zhou Yu; Dejing Xu; Jun Yu; Ting Yu; Zhou Zhao; Yueting Zhuang; Dacheng Tao
ActivityNet-QA:通过问答理解复杂网络视频的数据集
摘要

近期在语言和视觉建模方面的进展已成功应用于图像问答。将这一研究方向扩展到视频领域,以实现视频问答(VideoQA)既是关键也是自然的选择。与拥有大规模且完全注释的基准数据集的图像领域相比,现有的视频问答数据集规模较小,且多为自动生成,这些限制因素影响了其在实际应用中的适用性。在此,我们介绍了一个完全注释且大规模的视频问答数据集——ActivityNet-QA。该数据集包含从流行的ActivityNet数据集中提取的5,800个复杂网络视频上的58,000个问答对。我们对ActivityNet-QA数据集进行了统计分析,并通过比较现有视频问答基线模型在其上进行了广泛的实验。此外,我们探讨了多种视频表示策略,以提高视频问答的性能,特别是对于长视频。该数据集可在https://github.com/MILVLG/activitynet-qa 获取。