
要約
近年のコンピュータビジョン分野における研究において、Vision Transformer(ViT)の登場により、アーキテクチャ設計の分野が急速に変化している。ViTは自然言語処理で用いられる自己注意機構(self-attention)を活用して、画像分類において最先端の性能を達成した。一方、MLP-Mixerは単純な多層パーセプトロン(MLP)のみを用いることで、競争力のある性能を実現した。これに対して、いくつかの研究では、新たなアイデアに依拠せずに、慎重に再設計された畳み込みニューラルネットワーク(CNN)でもViTと同等の高度な性能が達成可能であることが示唆されている。このような背景のもと、コンピュータビジョンに適した誘導的バイアス(inductive bias)とは何かという問いに、注目が集まっている。本研究では、ViTの代替として新たな視点を提供する、新規かつ競争力のあるアーキテクチャ「Sequencer」を提案する。ViTとは異なり、Sequencerは自己注意層ではなく、LSTM(Long Short-Term Memory)を用いて長距離依存関係をモデル化する。さらに、2次元版のSequencerモジュールも提案し、LSTMを垂直方向と水平方向のLSTMに分解することで性能を向上させた。単純な構造にもかかわらず、複数の実験により、Sequencerの優れた性能が示された。特に、パラメータ数54MのSequencer2D-Lは、ImageNet-1Kデータセットにおいて84.6%のトップ1精度を達成した。さらに、このモデルが優れた転移学習性能を有し、解像度を2倍にした状況でも高いロバスト性を示すことが明らかになった。