17 天前

视觉任务中的MetaFormer基线

Weihao Yu, Chenyang Si, Pan Zhou, Mi Luo, Yichen Zhou, Jiashi Feng, Shuicheng Yan, Xinchao Wang
视觉任务中的MetaFormer基线
摘要

MetaFormer作为Transformer架构的抽象化形式,已被证实能够在实现优异性能方面发挥重要作用。本文进一步探索MetaFormer的潜力,且不聚焦于token mixer的设计:我们基于MetaFormer构建了若干基础模型,采用最基础或最常见的mixer结构,并总结出以下观察结果:(1)MetaFormer能够确保稳定的性能下限。仅采用恒等映射(identity mapping)作为token mixer时,所提出的MetaFormer模型——IdentityFormer,在ImageNet-1K数据集上即可达到超过80%的准确率。(2)MetaFormer对任意token mixer均具有良好的适应性。即使将token mixer设定为一个随机矩阵,所得到的模型RandFormer仍能实现超过81%的准确率,优于IdentityFormer。这表明,无论未来引入何种新型token mixer,MetaFormer均能稳定输出可靠结果。(3)MetaFormer可轻松实现当前最先进水平的性能。仅使用五年前常见的传统token mixer,基于MetaFormer构建的模型已超越现有SOTA(state-of-the-art)水平。(a) ConvFormer超越ConvNeXt。当采用常见的深度可分离卷积(depthwise separable convolutions)作为token mixer时,所构建的模型ConvFormer可被视为纯卷积神经网络(CNN),其性能仍显著优于强基准模型ConvNeXt。(b) CAFormer在ImageNet-1K上创下新纪录。通过在底层阶段使用深度可分离卷积作为token mixer,在顶层阶段采用标准自注意力机制(vanilla self-attention),所得到的CAFormer在224×224分辨率下,仅通过常规监督训练(无外部数据或知识蒸馏),即达到85.5%的准确率,刷新了ImageNet-1K上的新纪录。在对MetaFormer的深入探究中,我们还发现一种新型激活函数StarReLU,其计算开销相比GELU可减少71%的浮点运算量(FLOPs),同时性能更优。我们预期StarReLU在MetaFormer类模型以及其他神经网络架构中均具有广阔的应用潜力。