
최근 컴퓨터 비전 연구에서 비전 트랜스포머(Vision Transformer, ViT)의 등장은 다양한 아키텍처 설계 노력에 급속한 혁신을 가져왔다. ViT는 자연어 처리에서 사용되는 자기 주의(self-attention) 메커니즘을 활용해 최첨단 이미지 분류 성능을 달성하였으며, MLP-Mixer는 단순한 다층 퍼셉트론을 이용해 경쟁력 있는 성능을 보였다. 반면, 몇몇 연구들은 주의 깊게 재설계된 컨볼루션 신경망(CNN)이 이러한 새로운 아이디어에 의존하지 않고도 ViT와 견줄 만한 고성능을 달성할 수 있음을 제안하고 있다. 이러한 맥락에서 컴퓨터 비전에 적합한 유도 편향(inductive bias)이 무엇인지에 대한 관심이 점점 커지고 있다. 이에 우리는 ViT에 대한 새로운 경쟁적 대안으로서 Sequencer라는 혁신적인 아키텍처를 제안하며, 이러한 문제에 대한 새로운 관점을 제시한다. ViT와 달리, Sequencer는 자기 주의층 대신 LSTM을 사용하여 장거리 의존성을 모델링한다. 또한, 성능 향상을 위해 2차원 버전의 Sequencer 모듈을 제안하며, 여기서 LSTM을 수직 및 수평 방향의 두 개의 LSTM으로 분해한다. 단순함에도 불구하고, 여러 실험을 통해 Sequencer의 놀라운 성능을 입증하였다. Sequencer2D-L은 파라미터 수가 54M에 불과함에도 불구하고 ImageNet-1K 데이터셋에서 84.6%의 top-1 정확도를 달성하였다. 또한, 이 모델이 뛰어난 전이 성능(transferability)과 이중 해상도 대역에서의 강건한 해상도 적응성(resolution adaptability)을 갖추고 있음을 보였다.