18 天前

视频Swin Transformer

Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, Han Hu
视频Swin Transformer
摘要

视觉领域正经历从卷积神经网络(CNNs)向Transformer架构的建模范式转变,纯Transformer架构已在主流视频识别基准测试中达到顶尖性能。现有的视频模型均基于Transformer层构建,通过全局连接视频在空间和时间维度上的图像块(patches)。本文则提出一种新的归纳偏置——局部性(locality),在视频Transformer中引入该特性,相较于以往虽采用时空分解但仍全局计算自注意力的方法,能够实现更优的速度-精度权衡。所提出的视频架构通过适配专为图像任务设计的Swin Transformer来实现局部性,同时继续利用预训练图像模型的强大表征能力。该方法在广泛的视频识别基准上取得了当前最优的性能表现,包括动作识别任务(在Kinetics-400上达到84.9%的Top-1准确率,在Kinetics-600上达到86.1%的Top-1准确率,且仅需约1/20的预训练数据量和约1/3的模型规模),以及时间建模任务(在Something-Something v2上达到69.6%的Top-1准确率)。相关代码与模型将公开发布于:https://github.com/SwinTransformer/Video-Swin-Transformer。