C-MIL: 약한 감독 하에서의 연속 다중 인스턴스 학습을 위한 객체 검출

약한 감독 하의 객체 검출(Weakly Supervised Object Detection, WSOD)은 이미지 카테고리 감독 정보가 주어졌지만, 동시에 객체 위치와 객체 검출기를 학습해야 하는 어려운 과제입니다. 많은 WSOD 접근 방식들이 다중 인스턴스 학습(Multiple Instance Learning, MIL)을 채택하고 있으며, 비볼록(non-convex) 손실 함수를 사용하여 훈련 중에 전체 객체 범위를 놓치면서 부분적으로 객체를 잘못 위치시키는 현상이 발생하기 쉽습니다. 본 논문에서는 MIL에 연속 최적화 방법을 도입하여 연속 다중 인스턴스 학습(Continuation Multiple Instance Learning, C-MIL)을 제안합니다. 이는 비볼록성 문제를 체계적으로 완화하기 위한 목적으로 수행되었습니다. 우리는 인스턴스들을 공간적으로 관련된 집합과 클래스적으로 관련된 집합으로 분할하고, 각 집합 내에서 정의된 일련의 부드러운 손실 함수로 원래의 손실 함수를 근사합니다. 부드러운 손실 함수를 최적화함으로써 훈련 과정이 조기에 국소 최소값(local minima)에 빠지는 것을 방지하고, 전체 객체 범위를 나타내는 안정적인 의미론적 극단 영역(Stable Semantic Extremal Regions, SSERs)의 발견을 용이하게 합니다. PASCAL VOC 2007 및 2012 데이터셋에서 C-MIL은 약한 감독 하의 객체 검출과 약한 감독 하의 객체 위치 추정에서 기존 최신 기술(state-of-the-art)보다 크게 성능을 개선했습니다.