세그멘테이션 트랜스포머: 의미 세그멘테이션을 위한 객체-컨텍스트 표현

본 논문에서는 맥락 집약 전략에 초점을 맞춰 의미 분할 문제를 다룬다. 우리의 동기는 픽셀의 레이블이 해당 픽셀이 속한 객체의 카테고리임을 인식하는 데 있다. 우리는 단순하면서도 효과적인 접근 방식인 '객체-맥락 표현(Object-contextual representations)'을 제안한다. 이는 해당 객체 클래스의 표현을 활용하여 픽셀을 특성화하는 방식이다. 먼저, 진짜 분할 레이블(ground-truth segmentation)에 기반하여 객체 영역을 학습한다. 그 다음, 객체 영역 내에 위치한 픽셀들의 표현을 집약함으로써 객체 영역 표현을 계산한다. 마지막으로, 각 픽셀과 각 객체 영역 사이의 관계를 표현 유사도를 통해 계산하고, 픽셀의 표현을 해당 픽셀과 관련된 모든 객체 영역 표현들의 가중 평균인 객체-맥락 표현으로 보완한다. 우리는 실험적으로 제안한 방법이 다양한 도전적인 의미 분할 벤치마크, 즉 Cityscapes, ADE20K, LIP, PASCAL-Context, COCO-Stuff에서 경쟁력 있는 성능을 달성함을 입증한다. 특히, 제출한 모델 'HRNet + OCR + SegFix'는 제출 시점에서 Cityscapes 리더보드에서 1위를 기록하였다. 코드는 https://git.io/openseg 및 https://git.io/HRNet.OCR에서 공개되어 있다. 또한 본 논문에서는 Transformer 인코더-디코더 프레임워크를 활용하여 객체-맥락 표현 방식을 재구성하였다. 그 구체적인 내용은 3.3절에서 제시한다.