W2F: 객체 탐지를 위한 약한 감독에서 강한 감독으로의 프레임워크

최근 들어, 학습 시 경계 상자(바운딩 박스) 주석이 필요하지 않은 약한 감독 객체 탐지가 큰 관심을 받고 있다. 비록 상당한 진전이 이루어졌지만, 약한 감독과 완전한 감독 객체 탐지 간의 성능 차이 여전히 크다. 최근 몇몇 연구들은 약한 감독 탐지기를 통해 생성한 가상의 정답(퍼지 그라운드 트루스, pseudo ground-truths)을 사용하여 감독 탐지기를 학습시키는 접근법을 제안하였다. 그러나 이러한 방법들은 객체의 가장 대표적인 부분만을 찾는 경향이 있으며, 동일한 클래스의 여러 인스턴스가 존재하더라도 클래스당 하나의 그라운드 트루스 박스만을 탐색하려는 경향이 있다. 이러한 문제를 해결하기 위해, 우리는 다중 인스턴스 학습(Multiple Instance Learning)을 활용하여 약한 감독 탐지기를 구현하는, 약한 감독에서 완전한 감독으로의 전환 프레임워크를 제안한다. 또한, 이미지 내 각 인스턴스에 대한 가상의 그라운드 트루스를 탐색하기 위한 가상 그라운드 트루스 발굴(Pseudo Ground-Truth Excavation, PGE) 알고리즘을 제안한다. 더불어, PGE에서 생성된 가상의 그라운드 트루스를 보다 정교하게 개선하기 위해 가상 그라운드 트루스 적응(Pseudo Ground-Truth Adaptation, PGA) 알고리즘을 설계하였다. 최종적으로, 이러한 개선된 가상 그라운드 트루스를 활용하여 완전한 감독 탐지기를 학습시킨다. 도전적인 PASCAL VOC 2007 및 VOC 2012 벤치마크에서 실시한 광범위한 실험을 통해 제안하는 프레임워크의 효과성을 강력히 입증하였다. VOC2007과 VOC2012에서 각각 52.4%, 47.8%의 mAP를 달성하여, 기존 최고 성능 방법 대비 상당한 성능 향상을 보였다.