7 天前

凝视与聚焦：面向多事件视频问答的记忆提示方法

Ziyi Bai, Ruiping Wang, Xilin Chen

摘要

视频问答（VideoQA）已成为评估智能体理解人类日常行为能力的重要工具。尽管大型多模态视觉语言模型在诸多多模态任务中取得了显著进展，但在涉及多个“人-物体交互事件”的复杂视频情境下进行推理，仍然面临巨大挑战。相比之下，人类能够通过一系列情景记忆作为锚点，快速定位与问题相关的关键时刻，从而高效完成推理。为模拟这一高效推理机制，我们提出了一种名为“Glance-Focus”的新模型。一种直观的方法是利用动作检测模型预测一组动作作为关键记忆。然而，这类基于封闭词汇表的动作在不同视频领域中泛化能力有限。为此，我们采用编码器-解码器结构，在“凝视阶段”动态生成一组事件记忆，以克服固定词汇表的局限性。除了使用监督式二分匹配方法获取事件记忆外，我们进一步设计了一种无监督的记忆生成方法，从而摆脱对事件标注数据的依赖。在“聚焦阶段”，这些事件记忆充当桥梁，建立问题中高层事件概念与低层长视频内容之间的关联。给定问题后，模型首先聚焦于生成的关键事件记忆，随后通过我们设计的多层级交叉注意力机制，进一步聚焦于最相关的视频时刻，以支持精准推理。我们在四个多事件视频问答基准数据集（STAR、EgoTaskQA、AGQA 和 NExT-QA）上进行了大量实验。结果表明，所提出的Glance-Focus模型在各项挑战性推理任务中均达到当前最优性能，超越了现有的大型模型。相关代码与模型已开源，地址为：https://github.com/ByZ0e/Glance-Focus。