Transformers를 활용한 시퀀스-투-시퀀스 관점에서 의미 분할 재고찰

최근의 의미 분할(most recent semantic segmentation) 방법들은 인코더-디코더 구조를 가진 완전 컨볼루션 네트워크(FCN)를 주로 채택하고 있다. 인코더는 공간 해상도를 점진적으로 감소시키며, 더 큰 수용영역(receptive field)을 통해 보다 추상적이고 의미적인 시각적 개념을 학습한다. 분할 작업에서 맥락 모델링이 매우 중요하기 때문에, 최신 연구들은 확장된(또는 아트로스, dilated/atrous) 컨볼루션을 사용하거나 주의(attention) 모듈을 삽입함으로써 수용영역을 증가시키는 데 집중해왔다. 그러나 인코더-디코더 기반의 FCN 아키텍처는 여전히 동일한 형태를 유지하고 있다. 본 논문에서는 의미 분할을 시퀀스-투-시퀀스 예측 문제로 간주함으로써 새로운 시각을 제시한다. 구체적으로, 이미지를 패치들의 시퀀스로 인코딩하기 위해 순수한 트랜스포머(pure transformer, 컨볼루션 및 해상도 감소 없이)를 도입한다. 트랜스포머의 각 레이어에서 전역 맥락(global context)을 모델링할 수 있기 때문에, 이 인코더는 간단한 디코더와 결합되어 강력한 분할 모델인 SEgmentation TRansformer(이하 SETR)을 구성할 수 있다. 광범위한 실험을 통해 SETR은 ADE20K(50.28% mIoU), Pascal Context(55.83% mIoU)에서 새로운 최고 성능을 달성하였으며, Cityscapes에서도 경쟁력 있는 결과를 보였다. 특히, 제출일 기준으로 ADE20K 테스트 서버 랭킹에서 최초로 1위를 기록하였다.