LOCATE: 흐름 지도형 그래프 컷과 부트스트랩 자기 학습을 통한 자기지도형 객체 탐지

이미지 및 비디오 데이터셋에서 인간의 감독 없이 객체 세분화를 수행하는 것은 도전적인 문제이다. 인간은 공통 운동 원칙(Gestalt principle of common fate)을 이용해 비디오 속 움직이는 주목할 만한 객체를 쉽게 인식할 수 있다. 이 원칙은 함께 움직이는 것은 함께 속한다고 제안한다. 본 연구에서는 이 아이디어를 기반으로 운동 정보와 외형 정보를 활용하여 고품질의 객체 세분화 마스크를 생성하는 자기지도 학습 기반 객체 탐지 방법을 제안한다. 구체적으로, 전통적인 그래프 컷 기법을 재설계하여 외형 정보와 선형 조합된 운동 정보를 포함하여 에지 가중치를 생성한다. 놀랍게도, 이 단계만으로도 다양한 벤치마크에서 현재 최고 수준의 성능과 비슷한 객체 세분화 마스크를 생성할 수 있다. 성능을 further 향상시키기 위해, 초기 마스크를 의사 진실값(pseudo-ground truths)으로 삼아 이를 활용해 자기 학습(self-training)을 통해 세분화 네트워크를 훈련시킨다. 제안한 방법을 LOCATE라 명명하며, 여러 표준 비디오 객체 세분화, 이미지 주목성 탐지, 객체 세분화 벤치마크에서 효과성을 입증하였다. 그 결과, 대부분의 경우 기존 최고 수준의 방법과 경쟁하거나 이를 초월하는 성능을 달성하였다. 또한, 자연 환경에서 촬영된 이미지에 대한 질적 분석을 통해 제안 방법이 새로운 도메인으로의 전이 가능성(transferability)을 보였다. 더불어, 제안된 방법의 각 구성 요소의 기여도를 입증하고 설계 선택의 타당성을 뒷받침하기 위해 광범위한 아블레이션 분석(ablation analysis)을 수행하였다.