
摘要
大多数现代视频识别模型均针对短时视频片段(例如5至10秒长度)进行设计,因此在应用于长时电影理解任务时面临挑战,这类任务通常需要复杂的长时程时序推理能力。近期提出的视频Transformer模型通过引入长时程时序自注意力机制在一定程度上缓解了这一问题。然而,由于自注意力机制具有二次计算复杂度,此类模型往往计算成本高昂,难以实际应用。为此,我们提出ViS4mer——一种高效且适用于长时程视频理解的模型,该模型融合了自注意力机制与近期提出的结构化状态空间序列(Structured State-Space Sequence, S4)层的优势。我们的模型采用标准的Transformer编码器进行短时程时空特征提取,并结合多尺度时序S4解码器实现后续的长时程时序推理。通过在每一层解码器中逐步降低时空特征的分辨率与通道维度,ViS4mer能够有效学习视频中的复杂长时程时空依赖关系。此外,与基于纯自注意力机制的对应模型相比,ViS4mer的推理速度提升达2.63倍,且所需GPU内存减少8倍。在Long Video Understanding(LVU)基准测试的9项长视频分类任务中,ViS4mer在其中6项上取得了当前最优性能。进一步实验表明,该方法具有良好的泛化能力,在Breakfast与COIN程序化动作数据集上也取得了具有竞争力的成果。代码已公开,可访问:https://github.com/md-mohaiminul/ViS4mer。