17 天前

ConViT:通过软卷积归纳偏置改进视觉Transformer

Stéphane d&#39, Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio Biroli, Levent Sagun
ConViT:通过软卷积归纳偏置改进视觉Transformer
摘要

卷积架构在视觉任务中已证明极为成功。其固有的归纳偏置(inductive biases)能够实现高效的样本学习,但往往以较低的性能上限为代价。视觉Transformer(Vision Transformers, ViTs)则依赖于更为灵活的自注意力机制,在图像分类任务中最近已超越了卷积神经网络(CNNs)。然而,ViTs通常需要在大规模外部数据集上进行昂贵的预训练,或通过从预训练的卷积网络中蒸馏知识来获得性能。本文提出一个核心问题:是否有可能结合这两种架构的优势,同时规避各自的局限性?为此,我们提出了一种新型的位置自注意力机制——门控位置自注意力(Gated Positional Self-Attention, GPSA)。该机制能够在保持自注意力灵活性的同时,引入一种“软”形式的卷积归纳偏置。我们初始化GPSA层以模仿卷积层的局部性特征,随后为每个注意力头引入一个门控参数,使其能够自主调节对位置信息与内容信息的关注程度,从而在必要时突破局部性限制。由此构建的卷积式视觉Transformer架构——ConViT,在ImageNet图像分类任务上超越了DeiT模型,同时展现出显著提升的样本效率。为进一步理解局部性在学习过程中的作用,我们首先量化了标准自注意力层中局部性倾向的体现方式,随后分析了GPSA层如何实现对局部性的突破。最后,我们通过一系列消融实验深入探讨了ConViT成功的关键因素。相关代码与模型已公开发布于:https://github.com/facebookresearch/convit。

ConViT:通过软卷积归纳偏置改进视觉Transformer | 最新论文 | HyperAI超神经