17 天前
多尺度视觉Transformer
Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer

摘要
我们提出了多尺度视觉Transformer(Multiscale Vision Transformers, MViT),用于视频与图像识别任务,其核心思想是将多尺度特征层次结构这一经典理念与Transformer模型相结合。MViT采用多个通道-分辨率尺度阶段,从输入分辨率和较小的通道维度出发,逐级提升通道容量的同时逐步降低空间分辨率,从而构建出一个多层次的特征金字塔。在浅层中,模型以高空间分辨率处理简单、低层次的视觉信息;而在深层,则以较低的空间分辨率处理更复杂、高维的特征表示。我们针对多种视频识别任务对这一基础架构先验进行了评估,结果表明,该模型在性能上超越了依赖大规模外部预训练的同期视觉Transformer方法,且在计算量和参数量方面仅为其1/5至1/10,效率显著更高。此外,我们进一步移除了时间维度,将该模型应用于图像分类任务,其表现亦优于此前的视觉Transformer方法。代码已开源,地址为:https://github.com/facebookresearch/SlowFast