2 个月前

UniFormerV2：通过为图像ViT配备视频UniFormer实现时空学习

{Anonymous}

摘要

学习具有判别性的时空表征是视频理解的核心问题。近年来，视觉Transformer（Vision Transformers, ViTs）凭借自注意力机制在捕捉长时视频依赖关系方面展现出强大能力。然而，由于令牌（tokens）之间进行全局盲比较，这类模型在处理局部视频冗余方面存在局限性。UniFormer通过将卷积与自注意力统一为Transformer架构中的关系聚合器，有效缓解了这一问题。但该模型在微调用于视频任务前，必须经历繁琐且复杂的图像预训练过程，这严重限制了其在实际应用中的广泛使用。相比之下，开源的ViT模型已具备良好的预训练基础，并在丰富的图像监督下表现优异。基于上述观察，我们提出一种通用范式，通过将高效的UniFormer设计思想引入预训练的ViT模型，构建出一个强大的视频网络家族。我们将该系列模型命名为UniFormerV2，因其继承了UniFormer模块简洁的设计风格。然而，UniFormerV2引入了全新的局部与全局关系聚合器，能够无缝融合ViT与UniFormer的优势，在精度与计算效率之间实现更优的平衡。在不依赖任何额外技巧（bells and whistles）的前提下，我们的UniFormerV2在8个主流视频基准测试中均取得了当前最优的识别性能，涵盖场景相关任务（Kinetics-400/600/700、Moments in Time）和时序相关任务（Something-Something V1/V2、未剪辑的ActivityNet和HACS）。特别地，据我们所知，UniFormerV2是首个在Kinetics-400上实现90% top-1准确率的模型。相关模型将在后续公开发布。