17 天前

ViTAEv2：通过探索归纳偏置提升视觉Transformer在图像识别及其他任务中的性能

Qiming Zhang, Yufei Xu, Jing Zhang, Dacheng Tao

摘要

视觉Transformer（Vision Transformer, ViT）因其利用自注意力机制建模长距离依赖的强大能力，在多种计算机视觉任务中展现出巨大潜力。然而，传统ViT将图像视为一维的视觉标记序列，缺乏对局部视觉结构建模和尺度变化处理的内在归纳偏置（Inductive Bias, IB），这类能力通常需通过大规模训练数据和较长的训练周期隐式学习获得。本文提出一种通过融合卷积的内在归纳偏置来增强视觉Transformer的新型架构——ViTAE（Vision Transformer Advanced by Exploring intrinsic IB from convolutions）。技术上，ViTAE引入多个空间金字塔下采样模块，通过采用不同膨胀率的多层卷积，将输入图像高效下采样并嵌入富含多尺度上下文信息的视觉标记中。这一设计使模型具备内在的尺度不变性归纳偏置，能够有效学习不同尺度下物体的鲁棒特征表示。此外，在每一层Transformer中，ViTAE均并行设置一个卷积模块，与多头自注意力模块协同工作，其输出特征经融合后输入前馈网络。这一结构赋予模型内在的局部性归纳偏置，使其能够协同学习局部细节特征与全局依赖关系。本文将上述两种核心组件以各向同性（isotropic）和多阶段（multi-stage）两种方式堆叠，构建出两类ViTAE模型家族：基础版ViTAE与改进版ViTAEv2。在ImageNet数据集上的实验，以及在MS COCO、ADE20K和AP10K等下游任务上的评估结果表明，所提模型在性能上显著优于基线Transformer模型及当前主流方法。进一步地，我们将ViTAE模型扩展至6.44亿参数规模，在未使用任何额外私有数据的情况下，实现了当前最先进的图像分类性能：在ImageNet验证集上达到88.5%的Top-1准确率，在ImageNet真实验证集（ImageNet Real Validation Set）上更是取得91.2%的Top-1准确率，刷新了该基准下的最佳纪录。