2 个月前
MAXIM:用于图像处理的多轴MLP
Zhengzhong Tu; Hossein Talebi; Han Zhang; Feng Yang; Peyman Milanfar; Alan Bovik; Yinxiao Li

摘要
近期在Transformer和多层感知机(MLP)模型方面的进展为计算机视觉任务提供了新的网络架构设计。尽管这些模型在图像识别等许多视觉任务中已被证明是有效的,但在低级视觉任务中的适应仍面临挑战。支持高分辨率图像的灵活性不足以及局部注意力机制的局限性可能是主要瓶颈。在这项工作中,我们提出了一种基于多轴MLP的架构,称为MAXIM,该架构可以作为高效且灵活的通用视觉主干网络用于图像处理任务。MAXIM采用了UNet形状的分层结构,并通过空间门控MLP支持长距离交互。具体而言,MAXIM包含两个基于MLP的构建模块:一个多轴门控MLP,允许高效且可扩展地混合局部和全局视觉线索;一个交叉门控块,作为交叉注意力机制的替代方案,负责跨特征调节。这两个模块完全基于MLP,但同时也具备全局性和“全卷积”两个对图像处理有利的特性。我们的大量实验结果表明,所提出的MAXIM模型在包括去噪、去模糊、去雨、去雾和增强在内的多种图像处理任务中,在超过十个基准测试上达到了最先进的性能,同时所需的参数数量和浮点运算次数比竞争模型更少或相当。源代码和训练好的模型将在\url{https://github.com/google-research/maxim}提供。