17일 전

Transformers를 활용한 시퀀스-투-시퀀스 관점에서 의미 분할 재고찰

Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang
Transformers를 활용한 시퀀스-투-시퀀스 관점에서 의미 분할 재고찰
초록

최근의 의미 분할(most recent semantic segmentation) 방법들은 인코더-디코더 구조를 가진 완전 컨볼루션 네트워크(FCN)를 주로 채택하고 있다. 인코더는 공간 해상도를 점진적으로 감소시키며, 더 큰 수용영역(receptive field)을 통해 보다 추상적이고 의미적인 시각적 개념을 학습한다. 분할 작업에서 맥락 모델링이 매우 중요하기 때문에, 최신 연구들은 확장된(또는 아트로스, dilated/atrous) 컨볼루션을 사용하거나 주의(attention) 모듈을 삽입함으로써 수용영역을 증가시키는 데 집중해왔다. 그러나 인코더-디코더 기반의 FCN 아키텍처는 여전히 동일한 형태를 유지하고 있다. 본 논문에서는 의미 분할을 시퀀스-투-시퀀스 예측 문제로 간주함으로써 새로운 시각을 제시한다. 구체적으로, 이미지를 패치들의 시퀀스로 인코딩하기 위해 순수한 트랜스포머(pure transformer, 컨볼루션 및 해상도 감소 없이)를 도입한다. 트랜스포머의 각 레이어에서 전역 맥락(global context)을 모델링할 수 있기 때문에, 이 인코더는 간단한 디코더와 결합되어 강력한 분할 모델인 SEgmentation TRansformer(이하 SETR)을 구성할 수 있다. 광범위한 실험을 통해 SETR은 ADE20K(50.28% mIoU), Pascal Context(55.83% mIoU)에서 새로운 최고 성능을 달성하였으며, Cityscapes에서도 경쟁력 있는 결과를 보였다. 특히, 제출일 기준으로 ADE20K 테스트 서버 랭킹에서 최초로 1위를 기록하였다.