2 个月前

密集视频事件的问题回答

Qin, Hangyu ; Xiao, Junbin ; Yao, Angela
密集视频事件的问题回答
摘要

本文介绍了一项新颖的任务——密集视频事件问答(Dense Video Event Question Answering, DeVE-QA),该任务旨在回答并定位长视频中的密集事件问题,从而挑战多模态语言模型(Multimodal Language Models, MLLMs)在长时间段内对多个事件进行忠实理解和推理的能力。为了促进这一领域的研究,我们构建了DeVE-QA数据集,其中包含10.6万部长视频上的2.6万个事件的7.8万个问题。我们的基准测试显示,现有的最先进的MLLMs在DeVE-QA上表现不佳。为了解决这一问题,我们提出了一种新的无训练MLLM方法——DeVi,该方法强调了分层字幕模块、时间事件记忆模块和自一致性检查模块,分别用于检测、上下文化和记忆以及定位长视频中的密集事件以进行问答。大量实验表明,DeVi在回答密集事件问题和定位相关视频片段方面表现出色。与现有的MLLMs相比,它在DeVE-QA和NExT-GQA上的G(round)QA准确性分别提高了4.8%和2.1%。数据和代码可在https://github.com/QHUni/DeVE-QA获取。

密集视频事件的问题回答 | 最新论文 | HyperAI超神经