17 天前

UniFormerV2:通过为图像ViT配备视频UniFormer实现时空学习

{Anonymous}
UniFormerV2:通过为图像ViT配备视频UniFormer实现时空学习
摘要

学习具有判别性的时空表征是视频理解的核心问题。近年来,视觉Transformer(Vision Transformers, ViTs)凭借自注意力机制在捕捉长时视频依赖关系方面展现出强大能力。然而,由于令牌(tokens)之间进行全局盲比较,这类模型在处理局部视频冗余方面存在局限性。UniFormer通过将卷积与自注意力统一为Transformer架构中的关系聚合器,有效缓解了这一问题。但该模型在微调用于视频任务前,必须经历繁琐且复杂的图像预训练过程,这严重限制了其在实际应用中的广泛使用。相比之下,开源的ViT模型已具备良好的预训练基础,并在丰富的图像监督下表现优异。基于上述观察,我们提出一种通用范式,通过将高效的UniFormer设计思想引入预训练的ViT模型,构建出一个强大的视频网络家族。我们将该系列模型命名为UniFormerV2,因其继承了UniFormer模块简洁的设计风格。然而,UniFormerV2引入了全新的局部与全局关系聚合器,能够无缝融合ViT与UniFormer的优势,在精度与计算效率之间实现更优的平衡。在不依赖任何额外技巧(bells and whistles)的前提下,我们的UniFormerV2在8个主流视频基准测试中均取得了当前最优的识别性能,涵盖场景相关任务(Kinetics-400/600/700、Moments in Time)和时序相关任务(Something-Something V1/V2、未剪辑的ActivityNet和HACS)。特别地,据我们所知,UniFormerV2是首个在Kinetics-400上实现90% top-1准确率的模型。相关模型将在后续公开发布。