
摘要
在近期的计算机视觉研究中,视觉Transformer(Vision Transformer, ViT)的出现迅速推动了各类网络架构设计的革新:ViT通过引入自然语言处理中广泛使用的自注意力机制,实现了当时最先进的图像分类性能;而MLP-Mixer则仅依靠简单的多层感知机(MLP)便取得了具有竞争力的成果。与此形成对比的是,多项研究指出,经过精心设计的传统卷积神经网络(CNN)同样可以在不依赖上述新型架构思想的前提下,达到与ViT相媲美的先进性能。在此背景下,学界对适用于计算机视觉任务的归纳偏置(inductive bias)问题日益关注。在此背景下,我们提出Sequencer——一种新颖且具备竞争力的ViT替代架构,为上述问题提供了新的视角。与ViT不同,Sequencer通过长短期记忆网络(LSTM)建模长程依赖关系,而非依赖自注意力机制。此外,我们还提出了一种二维版本的Sequencer模块,将单个LSTM分解为垂直方向和水平方向的两个LSTM,以进一步提升性能。尽管结构设计简洁,多项实验表明,Sequencer表现出令人印象深刻的性能:Sequencer2D-L模型仅包含5400万参数,在ImageNet-1K数据集上即实现了84.6%的Top-1准确率。不仅如此,我们还验证了该模型具备良好的迁移能力,以及在双倍分辨率区间内出色的分辨率自适应性。