17 天前

AS-MLP:一种用于视觉的轴向移位MLP架构

Dongze Lian, Zehao Yu, Xing Sun, Shenghua Gao
AS-MLP:一种用于视觉的轴向移位MLP架构
摘要

本文提出了一种轴向位移多层感知机架构(Axial Shifted MLP,简称 AS-MLP)。与 MLP-Mixer 不同,后者通过矩阵转置和单一的 token 混合 MLP 来编码全局空间特征以实现信息流动,本文更注重局部特征之间的交互。通过在特征图的通道维度上进行轴向位移操作,AS-MLP 能够从不同轴向方向获取信息流,从而有效捕捉局部依赖关系。这一设计使得我们能够仅使用纯 MLP 架构即可实现与卷积神经网络(CNN)类似的感受野范围。此外,我们还可沿用卷积神经网络的设计思想,灵活调控 AS-MLP 中模块的感受野大小和扩张率等参数。基于所提出的 AS-MLP 架构,我们的模型在 ImageNet-1K 数据集上实现了 83.3% 的 Top-1 准确率,仅需 88M 参数和 15.2 GFLOPs 的计算量。这一简洁而高效的设计在所有基于 MLP 的架构中表现最优,并在计算量略低的情况下,仍可与基于 Transformer 的架构(如 Swin Transformer)相媲美,展现出极具竞争力的性能。此外,AS-MLP 是首个成功应用于下游任务(如目标检测和语义分割)的基于 MLP 的架构。实验结果同样令人瞩目:在 COCO 验证集上,AS-MLP 达到了 51.5 mAP 的成绩;在 ADE20K 数据集上,取得了 49.5 MS mIoU 的表现,其性能与基于 Transformer 的先进方法相当。综上,AS-MLP 建立了基于 MLP 架构的强有力基线模型。代码已开源,地址为:https://github.com/svip-lab/AS-MLP。