6 个月前

摘要

长视频中的视频问答（Video Question Answering, VQA）面临的核心挑战在于从大量冗余帧中提取相关信息，并建模长距离依赖关系。自注意力机制虽为序列建模提供了一种通用解决方案，但在处理长视频中海量时空标记（spatiotemporal tokens）时，其计算开销极为高昂。现有大多数方法依赖压缩策略以降低计算成本，例如通过稀疏采样减少输入长度，或通过时空池化压缩传递给大语言模型（Large Language Model, LLM）的输出序列。然而，这些简单的方法往往过度保留冗余信息，容易遗漏关键事件或快速变化的时空模式。在本工作中，我们提出BIMBA——一种高效的状态空间模型，用于处理长时视频。该模型利用选择性扫描（selective scan）算法，能够有效从高维视频数据中筛选出关键信息，并将其转换为精简的标记序列，从而实现对大语言模型的高效处理。大量实验表明，BIMBA在多个长视频VQA基准测试中均取得了当前最优的准确率，涵盖PerceptionTest、NExT-QA、EgoSchema、VNBench、LongVideoBench和Video-MME等主流数据集。相关代码与模型已公开发布于：https://sites.google.com/view/bimba-mllm。

源 PDF