7 天前

iPerceive:将常识推理应用于多模态密集视频字幕生成与视频问答

Aman Chadha, Gurneet Arora, Navpreet Kaloty
iPerceive:将常识推理应用于多模态密集视频字幕生成与视频问答
摘要

以往大多数视觉理解研究仅依赖于分析“是什么”(如事件识别)和“在哪里”(如事件定位),但在某些情况下,这种方法无法准确描述事件之间的上下文关系,甚至导致错误的视觉注意力分配。人类与机器的根本区别之一在于,我们天生倾向于探究事件之间的因果关系——例如,当事件Y直接由事件X引发时,我们会本能地追问“为什么”。为此,我们提出iPerceive框架,该框架通过利用上下文线索构建常识知识库,推断视频中物体之间的因果关系,从而实现对视频事件间“为什么”的理解。我们通过密集视频字幕生成(Dense Video Captioning, DVC)和视频问答(Video Question Answering, VideoQA)任务验证了该方法的有效性。此外,尽管现有大多数DVC与VideoQA研究仅依赖视觉信息,但音频和语音等其他模态对于人类观察者感知环境同样至关重要。因此,我们将DVC与VideoQA任务建模为多模态机器翻译问题。在ActivityNet Captions和TVQA数据集上分别评估iPerceive-DVC与iPerceive-VideoQA的性能,结果表明,我们的方法显著提升了现有技术水平。代码与示例可访问:iperceive.amanchadha.com。

iPerceive:将常识推理应用于多模态密集视频字幕生成与视频问答 | 最新论文 | HyperAI超神经