CP-DETR: 강력한 유니버설 객체 탐지를 위한 개념 프롬프트 지도 DETR

최근 유니버설 객체 탐지에 대한 연구는 최첨단(SoTA) 폐쇄집합 탐지기에서 언어 정보를 도입한 후, 대규모(텍스트-영역) 데이터셋을 구성하여 개방집합 개념으로 일반화하는 방향으로 진행되고 있다. 그러나 이러한 방법들은 두 가지 주요 과제에 직면해 있다: (i) 프롬프트에 포함된 사전 정보를 효과적으로 활용하여 객체의 일반화를 달성하는 방법, 그리고 (ii) 하류 작업에서의 정렬 편향(alignment bias)을 줄이는 방법. 이 두 가지 문제는 사전 학습 이후의 특정 시나리오에서는 최적의 성능을 발휘하지 못하게 만든다. 이러한 과제를 해결하기 위해, 우리는 단일 사전 학습 가중치만으로 거의 모든 시나리오에서 경쟁력을 갖춘 강력한 유니버설 탐지 기반 모델인 CP-DETR를 제안한다. 구체적으로, 스케일 단위 및 다중 스케일 융합 모듈을 통해 프롬프트와 시각 정보 간의 정보 상호작용을 강화하는 효율적인 프롬프트-시각 하이브리드 인코더를 설계하였다. 이후, 프롬프트 다중 레이블 손실과 보조 탐지 헤드를 통해 하이브리드 인코더가 프롬프트 정보를 보다 충분히 활용할 수 있도록 했다. 또한 텍스트 프롬프트 외에도, 구체적인 시각 예시를 통해 추상 개념을 추출하고 하류 작업에서 정렬 편향을 안정적으로 감소시키는 실용적인 두 가지 개념 프롬프트 생성 방법—시각 프롬프트와 최적화된 프롬프트—를 설계하였다. 이러한 효과적인 설계를 통해 CP-DETR는 다양한 시나리오에서 뛰어난 유니버설 탐지 성능을 보여주었다. 예를 들어, Swin-T 기반 모델은 LVIS에서 47.6의 제로샷 AP를 달성하였고, Swin-L 기반 모델은 ODinW35에서 32.2의 제로샷 AP를 기록하였다. 또한, 시각 프롬프트 생성 방법은 상호작용 탐지를 통해 COCO 검증 세트에서 68.4의 AP를 달성하였으며, 최적화된 프롬프트는 ODinW13에서 73.1의 풀샷(AP)을 달성하였다.