
소수 샘플 객체 탐지(few-shot object detection)는 적은 수의 레이블을 가진 새로운 객체를 탐지하는 데 초점을 맞추며, 최근 연구계에서 부상하는 도전 과제이다. 최근 연구들은 사전 학습된 모델을 적응시키거나 손실 함수를 수정함으로써 성능을 향상시킬 수 있음을 보여주었다. 본 논문에서는 저데이터 환경에서 대조적 언어-이미지 사전 학습(Contrastive Language-Image Pre-training, CLIP)과 하드 음성 분류 손실(hard negative classification loss)의 능력을 활용하는 방안을 탐구한다. 구체적으로, 이미지-언어 유사도를 활용한 재평가 기법을 도입한 소수 샘플 객체 탐지 기법인 RISF(Re-scoring using Image-language Similarity for Few-shot object detection)를 제안한다. RISF는 Faster R-CNN을 확장하여 CLIP을 활용한 보정 모듈(CM-CLIP)과 배경 음성 재조정 손실(BNRL, Background Negative Re-scale Loss)을 도입한다. CM-CLIP은 영상-클래스 유사도를 이용해 탐지기의 분류 점수를 재평가하는 방식으로, CLIP의 제로샷 분류 능력을 활용한다. BNRL은 일반화된 소수 샘플 객체 탐지 데이터셋에서 가짜 배경에 대한 처벌과 혼동되는 카테고리에 대한 손실을 고려하여 수정된 분류 손실 함수이다. MS-COCO 및 PASCAL VOC에서 실시한 광범위한 실험 결과, 제안하는 RISF가 최신 기법들을 상회하는 성능을 보였다. 코드는 공개될 예정이다.