
摘要
视频问答(VideoQA)已成为评估智能体理解人类日常行为能力的重要工具。尽管大型多模态视觉语言模型在诸多多模态任务中取得了显著进展,但在涉及多个“人-物体交互事件”的复杂视频情境下进行推理,仍然面临巨大挑战。相比之下,人类能够通过一系列情景记忆作为锚点,快速定位与问题相关的关键时刻,从而高效完成推理。为模拟这一高效推理机制,我们提出了一种名为“Glance-Focus”的新模型。一种直观的方法是利用动作检测模型预测一组动作作为关键记忆。然而,这类基于封闭词汇表的动作在不同视频领域中泛化能力有限。为此,我们采用编码器-解码器结构,在“凝视阶段”动态生成一组事件记忆,以克服固定词汇表的局限性。除了使用监督式二分匹配方法获取事件记忆外,我们进一步设计了一种无监督的记忆生成方法,从而摆脱对事件标注数据的依赖。在“聚焦阶段”,这些事件记忆充当桥梁,建立问题中高层事件概念与低层长视频内容之间的关联。给定问题后,模型首先聚焦于生成的关键事件记忆,随后通过我们设计的多层级交叉注意力机制,进一步聚焦于最相关的视频时刻,以支持精准推理。我们在四个多事件视频问答基准数据集(STAR、EgoTaskQA、AGQA 和 NExT-QA)上进行了大量实验。结果表明,所提出的Glance-Focus模型在各项挑战性推理任务中均达到当前最优性能,超越了现有的大型模型。相关代码与模型已开源,地址为:https://github.com/ByZ0e/Glance-Focus。