SegFormer: Transformer을 활용한 세분화 분할을 위한 간단하고 효율적인 설계

우리는 경량 다층 퍼셉트론(MLP) 디코더와 Transformer를 통합하는 간단하면서도 효율적이고 강력한 세그멘테이션 프레임워크인 SegFormer을 제안한다. SegFormer은 두 가지 매력적인 특징을 갖는다. 첫째, SegFormer은 새로운 계층적 구조를 가진 Transformer 인코더를 포함하며, 다중 해상도 특징을 출력한다. 이 인코더는 위치 인코딩을 필요로 하지 않아, 훈련 해상도와 테스트 해상도가 다를 때 발생하는 위치 코드의 보간에 따른 성능 저하를 피할 수 있다. 둘째, SegFormer은 복잡한 디코더를 피한다. 제안된 MLP 디코더는 다양한 레이어의 정보를 집계하여 지역적 주의(attention)와 전역적 주의를 결합함으로써 강력한 표현력을 갖춘다. 우리는 이러한 간단하고 경량화된 설계가 Transformer 기반 세그멘테이션에서 효율성을 결정짓는 핵심임을 보여준다. 우리는 이 접근법을 확장하여 SegFormer-B0부터 SegFormer-B5까지의 일련의 모델을 개발하였으며, 이는 이전의 대안들보다 훨씬 뛰어난 성능과 효율성을 달성한다. 예를 들어, SegFormer-B4는 파라미터 수 64M으로 ADE20K에서 50.3%의 mIoU를 달성하며, 이는 이전 최고 성능 방법보다 5배 작고, 성능은 2.2% 더 뛰어나다. 최고 성능 모델인 SegFormer-B5는 Cityscapes 검증 세트에서 84.0%의 mIoU를 기록하며, Cityscapes-C에서 우수한 제로샷(Zero-shot) 강건성도 보여준다. 코드는 다음 주소에서 공개될 예정이다: github.com/NVlabs/SegFormer.