DAFormer: 도메인 적응형 세그멘테이션을 위한 네트워크 아키텍처 및 훈련 전략 개선

현실 세계 이미지에 대한 픽셀 단위의 레이블링을 수행하는 것은 매우 비용이 큰 과정이므로, 대신 더 쉽게 확보할 수 있는 합성 데이터를 사용하여 모델을 훈련한 후, 실제 이미지에 대해 레이블 없이도 적응시키는 방식이 가능하다. 이러한 과정은 비지도 도메인 적응(Unsupervised Domain Adaptation, UDA)에서 연구되고 있다. 비록 많은 방법들이 새로운 적응 전략을 제안하고 있지만, 대부분이 오래된 네트워크 아키텍처에 기반하고 있다. 최근 네트워크 아키텍처의 영향에 대한 체계적인 연구가 이루어지지 않았기 때문에, 본 연구에서는 UDA를 위한 다양한 네트워크 아키텍처를 벤치마킹하고, Transformer 아키텍처가 UDA 세그멘테이션에서 새로운 잠재력을 지닌다는 점을 새롭게 밝혀냈다. 이러한 발견을 바탕으로, 우리는 새로운 UDA 방법인 DAFormer을 제안한다. DAFormer의 네트워크 아키텍처는 Transformer 인코더와 다중 수준의 컨텍스트 인식 특징 융합 디코더로 구성된다. 이는 세 가지 간단하지만 핵심적인 훈련 전략을 통해 안정적인 훈련과 소스 도메인에 대한 과적합을 방지할 수 있도록 설계되었다. 첫째, (1) 소스 도메인에서의 희귀 클래스 샘플링은 자가 훈련에서 흔한 클래스에 대한 확인 편향(confirmation bias)을 완화함으로써 의사 레이블의 품질을 향상시킨다. 둘째, (2) Thing 클래스에 대한 ImageNet 특징 거리 기반 손실과 (3) 학습률 웜업(learning rate warmup) 전략은 ImageNet 사전 훈련된 특징의 효과적인 전이를 촉진한다. DAFormer은 UDA 분야에서 중대한 진전을 나타내며, GTA-to-Cityscapes 경우에서 기존 최고 성능보다 mIoU 기준으로 10.8점 향상시키고, Synthia-to-Cityscapes에서는 5.4점 개선하였다. 또한 기존에 학습이 어려웠던 클래스인 기차, 버스, 트럭 등도 잘 학습할 수 있도록 가능케 한다. 구현 코드는 https://github.com/lhoyer/DAFormer 에서 확인할 수 있다.