7 天前

MIST：用于长视频问答的多模态迭代时空Transformer

Difei Gao, Luowei Zhou, Lei Ji, Linchao Zhu, Yi Yang, Mike Zheng Shou

摘要

为了构建能够辅助人类日常活动的视频问答（VideoQA）系统，从包含多样且复杂事件的长视频中获取答案已成为必要需求。现有的多模态视频问答模型在图像或短视频片段上已取得令人瞩目的性能表现，尤其得益于近期大规模多模态预训练技术的成功。然而，当将这些方法扩展至长视频场景时，新的挑战随之而来：一方面，采用密集采样策略在计算上代价过高；另一方面，依赖稀疏采样的方法在需要多事件、多粒度视觉推理的场景中表现不佳。为此，本文提出一种新型模型——多模态迭代时空Transformer（Multi-modal Iterative Spatial-temporal Transformer, MIST），旨在更有效地适配预训练模型以应对长视频问答任务。具体而言，MIST将传统的密集时空自注意力机制分解为级联的片段与区域选择模块，能够自适应地筛选出与问题密切相关的帧和图像区域。随后，通过注意力机制高效处理不同粒度的视觉概念。此外，MIST在多层网络中迭代执行选择与注意力操作，从而支持对多个事件的复杂推理。在四个主流VideoQA数据集（包括AGQA、NExT-QA、STAR和Env-QA）上的实验结果表明，MIST不仅达到了当前最优的性能水平，同时在计算效率和可解释性方面也展现出显著优势。