3 个月前

CycleMLP:一种用于密集预测的类MLP架构

Shoufa Chen, Enze Xie, Chongjian Ge, Runjian Chen, Ding Liang, Ping Luo
CycleMLP:一种用于密集预测的类MLP架构
摘要

本文提出了一种类似多层感知机(MLP)的简洁架构——CycleMLP,其可作为视觉识别与密集预测任务的通用主干网络。相较于当前主流的MLP架构(如MLP-Mixer、ResMLP和gMLP),这些架构的结构与图像尺寸紧密相关,因而难以应用于目标检测与图像分割等任务,CycleMLP具备两大优势:(1)能够处理多种尺寸的输入图像;(2)通过引入局部窗口机制,实现了计算复杂度与图像尺寸呈线性关系,而传统MLP由于存在全空间连接,其计算复杂度为$O(N^2)$。基于此,我们构建了一系列模型,其性能超越了现有各类MLP模型,甚至在参数量和浮点运算量(FLOPs)更少的情况下,优于当前先进的基于Transformer的模型(如Swin Transformer)。本工作显著拓展了类MLP模型的应用范围,使其成为密集预测任务中具有高度通用性的主干网络。CycleMLP在目标检测、实例分割和语义分割任务上均取得了具有竞争力的性能表现。特别地,在ADE20K数据集上,CycleMLP-Tiny模型以更低的FLOPs实现了比Swin-Tiny高出1.3%的mIoU指标。此外,CycleMLP在ImageNet-C数据集上还展现出优异的零样本鲁棒性。代码已开源,地址为:https://github.com/ShoufaChen/CycleMLP。