HyperAIHyperAI

Command Palette

Search for a command to run...

用于扩展更深层视觉Transformer的掩码图像残差学习

Guoxi Huang Hongtao Fu Adrian G. Bors

摘要

深度视觉变换器(Vision Transformers, ViTs)的训练更具挑战性。本文揭示了在使用掩码图像建模(Masked Image Modeling, MIM)进行预训练时,ViT深层网络存在性能退化问题。为缓解深度ViT的训练难题,我们提出一种自监督学习框架——掩码图像残差学习(Masked Image Residual Learning, MIRL),该方法显著缓解了深层网络的退化问题,使沿深度方向扩展ViT成为提升性能的可行路径。我们重新设计了ViT深层网络的预训练目标,将其定义为学习被掩码图像的残差信息。大量实验证明,借助MIRL,深层ViT能够被有效优化,并通过增加网络深度显著提升精度。在与ViT-Base和ViT-Large相当的计算复杂度下,我们构建了深度分别提升4.5倍和2倍的新型模型,分别命名为ViT-S-54和ViT-B-48。其中,ViT-S-54的参数量仅为ViT-Large的三分之一,却达到了与之相当的性能表现;ViT-B-48在ImageNet数据集上实现了86.2%的Top-1准确率。一方面,采用MIRL预训练的深层ViT在下游任务(如目标检测和语义分割)中展现出优异的泛化能力;另一方面,MIRL具有极高的预训练效率——在更短的训练时间内即可获得与现有方法相媲美的性能表现。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供