11 天前

ViTAE:通过探索内在归纳偏置提升视觉Transformer

Yufei Xu, Qiming Zhang, Jing Zhang, Dacheng Tao
ViTAE:通过探索内在归纳偏置提升视觉Transformer
摘要

得益于自注意力机制在建模长程依赖方面的强大能力,Transformer 在各类计算机视觉任务中展现出巨大潜力。然而,现有的视觉Transformer将图像视为一维的视觉标记序列,缺乏对局部视觉结构建模的内在归纳偏置(Inductive Bias, IB),且难以有效应对尺度变化问题。为弥补这一不足,现有方法通常依赖大规模训练数据和更长的训练周期,以隐式方式学习归纳偏置。本文提出一种新型视觉Transformer——ViTAE(Vision Transformer Advanced by Exploring intrinsic IB from convolutions),通过显式引入卷积带来的内在归纳偏置,显著提升模型性能。技术上,ViTAE设计了多个空间金字塔下采样模块,利用具有不同膨胀率(dilation rates)的多层卷积,将输入图像高效下采样并嵌入富含多尺度上下文信息的视觉标记中。这一机制赋予模型内在的尺度不变性归纳偏置,使其能够有效学习不同尺度下物体的鲁棒特征表示。此外,在每一Transformer层中,ViTAE在多头自注意力模块之外并行引入一个卷积模块,其输出特征与自注意力特征融合后输入前馈网络。该设计使模型具备内在的局部性归纳偏置,从而能够协同学习局部细节与全局依赖关系。在ImageNet基准以及多个下游任务上的实验结果表明,ViTAE在性能上显著优于基线Transformer模型及现有同类方法。相关源代码与预训练模型将开源发布于GitHub。

ViTAE:通过探索内在归纳偏置提升视觉Transformer | 最新论文 | HyperAI超神经