17 天前

MLP-Mixer:一种面向视觉任务的全MLP架构

Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, Alexey Dosovitskiy
MLP-Mixer:一种面向视觉任务的全MLP架构
摘要

卷积神经网络(CNNs)是计算机视觉领域的主流模型。近年来,基于注意力机制的网络结构,如视觉Transformer(Vision Transformer),也逐渐受到广泛关注。本文表明,尽管卷积操作和注意力机制均能实现优异性能,但二者并非必要条件。我们提出了一种完全基于多层感知机(MLPs)的全新架构——MLP-Mixer。该架构包含两种类型的层:一种是对图像块(image patches)独立应用多层感知机,实现“通道间特征混合”(即对每个位置的特征进行混合);另一种则在图像块之间应用多层感知机,实现“空间信息混合”(即对空间维度进行混合)。在大规模数据集上训练,或结合现代正则化方法时,MLP-Mixer在图像分类基准任务上取得了具有竞争力的性能表现,其预训练与推理开销与当前最先进模型相当。我们期望这些结果能够激发学术界在传统CNN和Transformer之外的更多探索与创新。