차별화되고 전이 가능한 단일 단계 소수 샘플 객체 탐지기로의 도전

최근 객체 탐지 모델은 새로운 객체 클래스를 학습하기 위해 방대한 양의 레이블링 데이터를 요구한다. 소수 샘플(object)에 기반하여 새로운 클래스를 학습하는 것을 목표로 하는 소수 객체 탐지(few-shot object detection, FSOD)는 이러한 문제를 해결하고자 한다. 두 단계형(FSOD) 탐지기에서는 경쟁력 있는 성능이 달성되었지만, 일반적으로 일 단계형(FSOD) 탐지기는 그에 비해 성능이 열등하다. 우리는 두 단계형과 일 단계형 FSOD 간의 성능 차이가 주로 탐지기의 구분 능력(discriminability)이 약하기 때문이라고 관찰하였다. 이는 후기 융합 후의 수용 영역(receptive field)이 작고, 손실 함수 내 전경 샘플의 수가 적어 발생하는 문제로 설명된다. 이러한 한계를 해결하기 위해, 우리는 다음과 같은 요소를 포함하는 소수 RetinaNet(Few-shot RetinaNet, FSRN)을 제안한다: 밀도 높은 메타-탐지기(meta-detectors)를 위한 다중 경로 지원 학습 전략, 전체 앵커 영역을 커버할 수 있는 넓은 수용 영역을 제공하는 조기 다수준 특징 융합, 그리고 쿼리 이미지와 소스 이미지에 대한 증강 기법을 도입하여 전이 능력(transferability)을 향상시킨다. 광범위한 실험 결과는 제안된 방법이 이러한 한계를 해결하고 구분 능력과 전이 능력을 동시에 향상시킨다는 것을 보여준다. FSRN은 두 단계형 FSOD보다 거의 두 배 빠른 속도를 기록하면서도 정확도에서 경쟁력을 유지하며, MS-COCO 및 PASCAL VOC 기준에서 기존의 최고 수준의 일 단계형 메타-탐지기뿐 아니라 일부 두 단계형 FSOD보다도 우수한 성능을 나타낸다.