9 天前

BIMBA:面向长距离视频问答的定向扫描压缩

Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani
BIMBA:面向长距离视频问答的定向扫描压缩
摘要

长视频中的视频问答(Video Question Answering, VQA)面临的核心挑战在于从大量冗余帧中提取相关信息,并建模长距离依赖关系。自注意力机制虽为序列建模提供了一种通用解决方案,但在处理长视频中海量时空标记(spatiotemporal tokens)时,其计算开销极为高昂。现有大多数方法依赖压缩策略以降低计算成本,例如通过稀疏采样减少输入长度,或通过时空池化压缩传递给大语言模型(Large Language Model, LLM)的输出序列。然而,这些简单的方法往往过度保留冗余信息,容易遗漏关键事件或快速变化的时空模式。在本工作中,我们提出BIMBA——一种高效的状态空间模型,用于处理长时视频。该模型利用选择性扫描(selective scan)算法,能够有效从高维视频数据中筛选出关键信息,并将其转换为精简的标记序列,从而实现对大语言模型的高效处理。大量实验表明,BIMBA在多个长视频VQA基准测试中均取得了当前最优的准确率,涵盖PerceptionTest、NExT-QA、EgoSchema、VNBench、LongVideoBench和Video-MME等主流数据集。相关代码与模型已公开发布于:https://sites.google.com/view/bimba-mllm。