PiPa: 도메인 적응형 의미 분할을 위한 픽셀 및 패치 단위 자기 지도 학습

비지도 도메인 적응(Unsupervised Domain Adaptation, UDA)은 학습된 모델의 다른 도메인으로의 일반화를 향상시키는 것을 목표로 합니다. 비디오 게임과 같은 라벨이 있는 소스 도메인에서 훈련된 모델의 도메인 간 변동에 영향을 받지 않는 지식이 실제 세계 시나리오와 같은 라벨이 없는 타겟 도메인으로 전달되어 주석 작업 비용을 절감할 수 있습니다. 기존의 의미 분할을 위한 UDA 방법들은 일반적으로 픽셀, 특성, 예측 등 다양한 수준의 도메인 간 차이를 최소화하는 데 초점을 맞추어 도메인 간 변동에 영향을 받지 않는 지식을 추출합니다. 그러나 이미지 내부의 문맥 상관관계와 같은 주요한 도메인 내 지식은 여전히 충분히 연구되지 않았습니다.이러한 격차를 메우기 위해, 우리는 이미지 내 픽셀 간 상관관계와 패치별 의미 일관성을 강화하여 서로 다른 문맥에 대응할 수 있는 통합된 픽셀- 및 패치-단위 자기 감독 학습 프레임워크를 제안합니다. 이 프레임워크는 PiPa라고 명명되었습니다. 제안된 프레임워크는 도메인 내 이미지의 고유 구조를 활용하여: (1) 동일 클래스 내에서는 밀집되고 서로 다른 클래스 사이에서는 분리되는 판별력 있는 픽셀-단위 특징 학습을 명시적으로 유도하며, (2) 서로 다른 문맥이나 변동에도 견고한 동일 패치의 특징 학습을 촉진합니다.다양한 실험 결과가 제안된 방법의 효과성을 검증하였으며, 이 방법은 두 개의 널리 사용되는 UDA 벤치마크에서 경쟁력 있는 정확도를 달성하였습니다. 즉, GTA에서 Cityscapes로 75.6 mIoU와 Synthia에서 Cityscapes로 68.2 mIoU입니다. 또한, 우리의 방법은 추가적인 매개변수 없이 다른 UDA 접근법들과 호환되어 성능을 더욱 향상시킬 수 있습니다.