16 天前

用于扩展更深层视觉Transformer的掩码图像残差学习

Guoxi Huang, Hongtao Fu, Adrian G. Bors

摘要

深度视觉变换器（Vision Transformers, ViTs）的训练更具挑战性。本文揭示了在使用掩码图像建模（Masked Image Modeling, MIM）进行预训练时，ViT深层网络存在性能退化问题。为缓解深度ViT的训练难题，我们提出一种自监督学习框架——掩码图像残差学习（Masked Image Residual Learning, MIRL），该方法显著缓解了深层网络的退化问题，使沿深度方向扩展ViT成为提升性能的可行路径。我们重新设计了ViT深层网络的预训练目标，将其定义为学习被掩码图像的残差信息。大量实验证明，借助MIRL，深层ViT能够被有效优化，并通过增加网络深度显著提升精度。在与ViT-Base和ViT-Large相当的计算复杂度下，我们构建了深度分别提升4.5倍和2倍的新型模型，分别命名为ViT-S-54和ViT-B-48。其中，ViT-S-54的参数量仅为ViT-Large的三分之一，却达到了与之相当的性能表现；ViT-B-48在ImageNet数据集上实现了86.2%的Top-1准确率。一方面，采用MIRL预训练的深层ViT在下游任务（如目标检测和语义分割）中展现出优异的泛化能力；另一方面，MIRL具有极高的预训练效率——在更短的训练时间内即可获得与现有方法相媲美的性能表现。