
약한 지도 학습 환경에서 객체 검출기는 이미지 레벨 주석만을 사용하여 훈련되어야 합니다. 바운딩 박스 레벨의 정답 데이터가 제공되지 않기 때문에, 지금까지 제안된 대부분의 해결책은 현재 분류기를 사용하여 각 이미지에서 가장 신뢰할 수 있는 바운딩 박스를 선택하고, 이를 다음 훈련 단계에서 의사 정답 데이터로 취급하는 반복적인 다중 인스턴스 학습(Multiple Instance Learning) 프레임워크에 기반하고 있습니다. 그러나 미성숙한 분류기의 오류는 과정이 이탈하게 만들 수 있으며, 일반적으로 훈련 데이터셋에 많은 거짓 양성을 도입합니다. 이러한 문제를 완화하기 위해 본 논문에서는 자기 조절 학습(self-paced learning) 패러다임을 기반으로 하는 훈련 프로토콜을 제안합니다. 주요 아이디어는 가장 신뢰할 수 있는 이미지와 바운딩 박스의 부분 집합을 반복적으로 선택하여 이를 훈련에 활용하는 것입니다. 최근 몇 년 동안 비슷한 전략들이 SVM(Support Vector Machine) 및 다른 분류기에 적용되었지만, 우리는 처음으로 자기 조절 접근법이 끝까지 연결(end-to-end)된 훈련 파이프라인에서 딥 네트워크 기반 분류기와 함께 사용될 수 있음을 보여줍니다. 우리가 제안하는 방법은 완전히 지도된 Fast-RCNN 아키텍처를 기반으로 하며, 입력 이미지를 바운딩 박스들의 집합(bag of boxes)으로 표현하는 유사한 아키텍처에도 적용할 수 있습니다. 우리는 Pascal VOC 2007, Pascal VOC 2010 및 ILSVRC 2013에서 최고 수준의 결과를 보여주며, ILSVRC 2013에서는 저용량 AlexNet 네트워크를 기반으로 한 결과가 고용량 네트워크를 기반으로 하는 다른 약한 지도 학습 접근법보다 우수함을 입증하였습니다.