2 个月前
VideoMamba:用于高效视频理解的状态空间模型
Li, Kunchang ; Li, Xinhao ; Wang, Yi ; He, Yinan ; Wang, Yali ; Wang, Limin ; Qiao, Yu

摘要
为应对视频理解中的局部冗余和全局依赖双重挑战,本研究创新性地将Mamba模型应用于视频领域。所提出的VideoMamba克服了现有3D卷积神经网络和视频变换器的局限性。其线性复杂度算子实现了高效的长期建模,这对于高分辨率长视频的理解至关重要。广泛的评估表明,VideoMamba具备以下四项核心能力:(1)无需大量数据集预训练即可在视觉领域实现可扩展性,这得益于一种新颖的自蒸馏技术;(2)对识别短期动作具有敏感性,即使存在细微的动作差异也能准确识别;(3)在长期视频理解方面表现出色,显著超越了传统的基于特征的模型;(4)与其他模态兼容,在多模态环境中展示了强大的鲁棒性。通过这些独特的优势,VideoMamba为视频理解设定了新的基准,提供了一种可扩展且高效的全面解决方案。所有代码和模型均可在https://github.com/OpenGVLab/VideoMamba获取。