9 天前

MMTF:用于常识视频问答的多模态时序融合

{Sanguk Park, Dongchan Park, Geonwoo Park, Mobeen Ahmad}
MMTF:用于常识视频问答的多模态时序融合
摘要

视频问答是一项具有挑战性的任务,要求在统一的语境下理解视频内容与问题。当问题涉及推理,例如预测未来事件或解释反事实事件时,挑战尤为突出,因为这类问题需要依赖未在视频中明确呈现的知识。现有方法通常采用粗粒度的视频与语言特征融合方式,忽略了时间维度的信息。为解决这一问题,我们提出了一种新颖的视觉-文本融合模块,该模块能够学习视频与问题之间的时序上下文关系。具体而言,该模块沿视频的时间轴扩展问题令牌(question tokens),并将其与视频特征进行融合,从而生成兼具局部与全局上下文信息的新表示。我们在四个视频问答数据集上对所提方法进行了评估,包括 MSVD-QA、NExT-QA、Causal-VidQA 以及 AGQA-2.0。

MMTF:用于常识视频问答的多模态时序融合 | 最新论文 | HyperAI超神经