16 天前

用于扩展更深层视觉Transformer的掩码图像残差学习

Guoxi Huang, Hongtao Fu, Adrian G. Bors
用于扩展更深层视觉Transformer的掩码图像残差学习
摘要

深度视觉变换器(Vision Transformers, ViTs)的训练更具挑战性。本文揭示了在使用掩码图像建模(Masked Image Modeling, MIM)进行预训练时,ViT深层网络存在性能退化问题。为缓解深度ViT的训练难题,我们提出一种自监督学习框架——掩码图像残差学习(Masked Image Residual Learning, MIRL),该方法显著缓解了深层网络的退化问题,使沿深度方向扩展ViT成为提升性能的可行路径。我们重新设计了ViT深层网络的预训练目标,将其定义为学习被掩码图像的残差信息。大量实验证明,借助MIRL,深层ViT能够被有效优化,并通过增加网络深度显著提升精度。在与ViT-Base和ViT-Large相当的计算复杂度下,我们构建了深度分别提升4.5倍和2倍的新型模型,分别命名为ViT-S-54和ViT-B-48。其中,ViT-S-54的参数量仅为ViT-Large的三分之一,却达到了与之相当的性能表现;ViT-B-48在ImageNet数据集上实现了86.2%的Top-1准确率。一方面,采用MIRL预训练的深层ViT在下游任务(如目标检测和语义分割)中展现出优异的泛化能力;另一方面,MIRL具有极高的预训练效率——在更短的训练时间内即可获得与现有方法相媲美的性能表现。