17 天前

ResMLP:用于图像分类的前馈网络及数据高效训练

Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Gautier Izacard, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, Hervé Jégou
ResMLP:用于图像分类的前馈网络及数据高效训练
摘要

我们提出ResMLP,一种完全基于多层感知机(MLP)构建的图像分类架构。该模型是一种结构简洁的残差网络,其核心机制交替执行以下两个步骤:(i)一个线性层,使图像块在各通道间独立且同等地进行交互;(ii)一个两层前馈网络,使各通道在每个图像块内部独立地进行交互。在采用现代训练策略(包括大规模数据增强,以及可选的知识蒸馏)进行训练时,ResMLP在ImageNet数据集上实现了令人惊喜的准确率与模型复杂度之间的良好权衡。此外,我们还在自监督学习设置下训练了ResMLP模型,以进一步减少对标注数据集的依赖。最后,通过将该模型适配至机器翻译任务,我们取得了令人惊讶的优异表现。我们已基于Timm库开源了预训练模型及全部代码。