19 天前

MAR:用于高效动作识别的掩码自编码器

Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Xiang Wang, Yuehuan Wang, Yiliang Lv, Changxin Gao, Nong Sang
MAR:用于高效动作识别的掩码自编码器
摘要

传统的视频识别方法通常对完整输入视频进行处理,由于视频中广泛存在时空冗余,这种做法效率较低。近期在掩码视频建模(如VideoMAE)方面的进展表明,仅依赖有限的视觉信息,原始视觉Transformer(ViT)也具备补全时空上下文的能力。受此启发,我们提出了掩码动作识别(Masked Action Recognition, MAR),通过丢弃部分图像块(patches)并仅在视频的局部区域上进行计算,有效减少了冗余计算。MAR包含两个不可或缺的组成部分:单元级运行掩码(cell running masking)与桥接分类器(bridging classifier)。具体而言,为使ViT能够更轻松地感知可见图像块之外的细节信息,我们提出了单元级运行掩码机制,该机制通过保持视频中的时空相关性,确保同一空间位置的图像块能够依次被观察,从而便于重建。此外,我们发现尽管部分可见特征能够重建出语义清晰的不可见图像块,但在分类任务上仍难以取得高精度。为解决这一问题,我们引入了桥接分类器,用以弥合ViT在重建任务中编码的特征与专用于分类任务的特征之间的语义鸿沟。实验结果表明,所提出的MAR方法将ViT的计算开销降低了53%。大量实验证明,MAR在各类基准上均显著优于现有ViT模型。特别地,在Kinetics-400和Something-Something v2数据集上,使用MAR训练的ViT-Large模型性能超越了采用标准训练方案的ViT-Huge模型,且其计算开销仅为ViT-Huge的14.5%。这一结果充分验证了MAR在提升模型效率与性能方面的显著优势。

MAR:用于高效动作识别的掩码自编码器 | 最新论文 | HyperAI超神经