전이성과 구별성을 조화시키는 객체 탐지기 적응을 위한 방법

최근 적응형 객체 탐지 기술의 발전은 탐지 파이프라인 전반에 걸친 분포 변화를 완화하기 위해 적대적 특징 적응(adversarial feature adaptation)을 활용함으로써 놀라운 성과를 거두었다. 그러나 적대적 적응은 특징 표현의 전이 가능성(transferability)을 크게 향상시키지만, 객체 탐지기의 특징 구별 가능성(discriminability)에 대한 연구는 여전히 부족한 실정이다. 더불어, 객체의 복잡한 조합과 도메인 간의 구조적 장면 배치 차이를 고려할 때, 전이 가능성과 구별 가능성은 적대적 적응 과정에서 상충될 수 있다. 본 논문에서는 전이 가능성과 구별 가능성을 조화롭게 균형 잡기 위해 특징 표현의 전이 가능성을 계층적으로(지역 영역/이미지/인스턴스 수준) 보정하는 계층적 전이 가능성 보정 네트워크(Hierarchical Transferability Calibration Network, HTCN)를 제안한다. 제안된 모델은 세 가지 구성 요소로 구성된다. (1) 입력 보간을 통한 중요도 가중 적대적 학습(Importance Weighted Adversarial Training with input Interpolation, IWAT-I): 보간된 이미지 수준의 특징에 대해 재가중함으로써 전역적 구별 가능성을 강화한다. (2) 맥락 인지형 인스턴스 수준 정렬(Context-aware Instance-Level Alignment, CILA) 모듈: 인스턴스 수준의 특징과 전역 맥락 정보 간의 상호 보완적 효과를 포착함으로써 인스턴스 수준의 특징 정렬을 통해 지역적 구별 가능성을 향상시킨다. (3) 지역 특징 마스크: 지역 전이 가능성을 보정하여 이후의 구별 패턴 정렬에 의미론적 안내를 제공한다. 실험 결과, HTCN이 벤치마크 데이터셋에서 기존 최고 수준의 방법들을 크게 상회함을 확인하였다.