17 天前

UniFormer:用于高效时空表征学习的统一Transformer

{Yu Qiao, Hongsheng Li, Yu Liu, Guanglu Song, Gao Peng, Yali Wang, Kunchang Li}
UniFormer:用于高效时空表征学习的统一Transformer
摘要

从高维视频中学习丰富且多尺度的时空语义是一项极具挑战性的任务,主要原因在于视频帧之间存在较大的局部冗余以及复杂的全局依赖关系。近年来,该领域的研究进展主要得益于3D卷积神经网络和视觉Transformer的发展。尽管3D卷积能够通过小范围的3D邻域高效聚合局部上下文信息,从而抑制局部冗余,但由于感受野有限,难以捕捉全局依赖关系。相比之下,视觉Transformer通过自注意力机制可有效建模长程依赖,但在消除局部冗余方面存在局限,因其在每一层中对所有token进行无差别相似性比较,缺乏对局部结构的感知能力。基于上述观察,本文提出一种新型统一Transformer架构——UniFormer,该模型以简洁的Transformer形式无缝融合了3D卷积与时空自注意力机制的优势,在计算开销与模型精度之间实现了更优的平衡。与传统Transformer不同,我们的关系聚合模块通过在浅层学习局部token亲和性、在深层学习全局token亲和性,能够同时有效处理时空冗余与依赖问题。我们在多个主流视频基准数据集上进行了广泛实验,包括Kinetics-400、Kinetics-600以及Something-Something V1和V2。仅使用ImageNet-1K预训练,UniFormer在Kinetics-400和Kinetics-600上分别取得了82.9%和84.8%的Top-1准确率,同时所需计算量(GFLOPs)仅为其他先进方法的十分之一。在Something-Something V1和V2数据集上,UniFormer分别取得了60.8%和71.4%的Top-1准确率,刷新了当前最优性能纪录。