17일 전

도메인 적응형 및 일반화 가능한 네트워크 아키텍처 및 훈련 전략: 의미 이미지 세그멘테이션을 위한 접근

Lukas Hoyer, Dengxin Dai, Luc Van Gool
도메인 적응형 및 일반화 가능한 네트워크 아키텍처 및 훈련 전략: 의미 이미지 세그멘테이션을 위한 접근
초록

비지도 도메인 적응(UDA) 및 도메인 일반화(DG)는 소스 도메인에서 학습된 머신러닝 모델이 레이블이 없는 또는 심지어 미지의 타겟 도메인에서도 우수한 성능을 발휘할 수 있도록 한다. 기존의 UDA&DG 세그멘테이션 방법들은 대부분 구식 네트워크 기반으로 구성되어 있으나, 본 연구에서는 최신 아키텍처를 평가하여 Transformer의 잠재력을 입증하고, UDA&DG에 특화된 DAFormer 네트워크를 설계하였다. DAFormer은 소스 도메인에 과적합되는 것을 방지하기 위해 세 가지 학습 전략을 도입한다. 첫째, 희귀 클래스 샘플링(Rare Class Sampling)을 통해 소스 도메인 내 흔한 클래스에 대한 편향을 완화하며, 둘째, Thing-클래스 기반 ImageNet 특징 거리(Thing-Class ImageNet Feature Distance)와 셋째, 학습률 워밍업(learning rate warmup)을 통해 ImageNet 사전학습에서의 특징 전이를 촉진한다. 일반적으로 UDA&DG는 GPU 메모리 사용량이 크기 때문에 기존 대부분의 방법들은 이미지를 축소하거나 자르는 방식을 사용한다. 그러나 저해상도 예측은 세부적인 정보를 유지하기 어렵고, 자른 이미지로 학습된 모델은 장거리 및 도메인 간 강인한 맥락 정보를 효과적으로 포착하지 못하는 문제가 있다. 이를 해결하기 위해 본 연구는 다중 해상도 프레임워크인 HRDA를 제안한다. HRDA는 세부적인 세그멘테이션 정보를 유지하기 위해 작은 고해상도 샘플을 활용하고, 장거리 맥락 의존성을 포착하기 위해 큰 저해상도 샘플을 사용하며, 이를 학습 가능한 스케일 주의 메커니즘(scale attention)으로 통합한다. DAFormer과 HRDA는 5개의 다양한 벤치마크에서 기존 최고 성능을 10 mIoU 이상 상회하는 성능을 달성하며, UDA&DG 분야의 기준을 새롭게 정의한다. 구현 코드는 https://github.com/lhoyer/HRDA 에서 공개되어 있다.