시공간 픽셀 수준의 대비 학습 기반의 소스 프리 도메인 적응을 통한 영상 의미 분할

무 supervision 도메인 적응(UDA)에서 의미 분할은 소스 도메인의 레이블링된 지식을 타겟 도메인의 레이블 없는 데이터에 전이하기 위해 소스 및 타겟 데이터에 모두 접근하는 방식을 사용한다. 그러나 실제 환경에서는 소스 데이터에 접근하는 것이 제한되거나 불가능한 경우가 많아, UDA는 제한된 적용 가능성을 지닌다. 이러한 소스 데이터 접근 제약 상황을 해결하기 위해 최근 연구들은 소스 데이터에 접근하지 않고도 소스 모델을 타겟 도메인에 적응시키는 '소스 프리 도메인 적응(SFDA)' 설정을 탐구하고 있다. 그러나 기존의 SFDA 접근법은 적응 과정에서 이미지 수준의 정보만을 활용하여 영상 응용 분야에서는 최적의 성능을 내지 못한다. 본 논문은 시간 정보를 활용하여 영상 적응을 개선하는 영상 의미 분할(VSS)을 위한 SFDA를 연구한다. 구체적으로, 소스 데이터의 부재를 보다 효과적으로 해결하기 위해 공간-시간적 정보를 극대화하는 새로운 방법인 공간-시간 픽셀 수준(STPL) 대비 학습을 제안한다. STPL은 공간-시간 공간 내 픽셀 간의 의미적 상관관계를 명시적으로 학습함으로써, 레이블이 없는 타겟 도메인으로의 적응을 위한 강력한 자기지도 학습(self-supervision)을 제공한다. 광범위한 실험을 통해 STPL이 현재의 UDA 및 SFDA 접근법과 비교하여 VSS 벤치마크에서 최고 수준의 성능을 달성함을 입증하였다. 코드는 다음 링크에서 제공된다: https://github.com/shaoyuanlo/STPL