CORA: CLIP을 활용한 오픈 보카브러리 검출을 위한 지역 프롬프팅 및 앵커 사전 매칭

오픈-어휘 검출(OVD)은 기존 베이스 카테고리 외에 새로운 카테고리의 객체를 검출하는 작업을 목표로 합니다. 최근 OVD 방법들은 CLIP과 같은 대규모 시각-언어 사전 학습 모델을 활용하여 새로운 객체를 인식합니다. 이러한 모델을 검출기 학습에 통합할 때 극복해야 하는 두 가지 핵심 장애물을 확인하였습니다: (1) 전체 이미지에서 훈련된 VL 모델을 지역 인식 작업에 적용할 때 발생하는 분포 불일치; (2) 미처 본 적 없는 클래스의 객체를 위치시키는 어려움. 이러한 장애물을 극복하기 위해, 우리는 Region prompting과 Anchor pre-matching을 통해 CLIP을 오픈-어휘 검출에 적응시키는 DETR 스타일의 프레임워크인 CORA를 제안합니다. Region prompting은 CLIP 기반 지역 분류기의 지역 특성을 유도하여 전체-지역 분포 차이를 완화합니다. Anchor pre-matching은 클래스 인식 매칭 메커니즘을 통해 일반화 가능한 객체 위치 추정 학습을 돕습니다. 우리는 COCO OVD 벤치마크에서 CORA를 평가하였으며, 새로운 클래스에서 41.7 AP50를 달성하여 추가적인 훈련 데이터 없이 이전 최고 수준(SOTA)보다 2.4 AP50 높은 성능을 보였습니다. 추가 훈련 데이터가 있을 경우, 우리는 CORA$^+$를 실제 베이스 카테고리 주석과 CORA로 계산된 추가 가상 바운딩 박스 라벨 모두 사용하여 훈련시켰습니다. CORA$^+$는 COCO OVD 벤치마크에서 43.1 AP50와 LVIS OVD 벤치마크에서 28.1 박스 APr를 달성하였습니다.