17 天前

序列生成器：用于图像分类的深度LSTM

Yuki Tatsunami, Masato Taki

摘要

在近期的计算机视觉研究中，视觉Transformer（Vision Transformer, ViT）的出现迅速推动了各类网络架构设计的革新：ViT通过引入自然语言处理中广泛使用的自注意力机制，实现了当时最先进的图像分类性能；而MLP-Mixer则仅依靠简单的多层感知机（MLP）便取得了具有竞争力的成果。与此形成对比的是，多项研究指出，经过精心设计的传统卷积神经网络（CNN）同样可以在不依赖上述新型架构思想的前提下，达到与ViT相媲美的先进性能。在此背景下，学界对适用于计算机视觉任务的归纳偏置（inductive bias）问题日益关注。在此背景下，我们提出Sequencer——一种新颖且具备竞争力的ViT替代架构，为上述问题提供了新的视角。与ViT不同，Sequencer通过长短期记忆网络（LSTM）建模长程依赖关系，而非依赖自注意力机制。此外，我们还提出了一种二维版本的Sequencer模块，将单个LSTM分解为垂直方向和水平方向的两个LSTM，以进一步提升性能。尽管结构设计简洁，多项实验表明，Sequencer表现出令人印象深刻的性能：Sequencer2D-L模型仅包含5400万参数，在ImageNet-1K数据集上即实现了84.6%的Top-1准确率。不仅如此，我们还验证了该模型具备良好的迁移能力，以及在双倍分辨率区间内出色的分辨率自适应性。