DetCLIPv3: 다양한 생성형 개방형 어휘 객체 탐지로 나아가기

기존의 오픈-보이지 않는 객체 탐지기(Open-vocabulary object detectors)는 사용자로부터 미리 정의된 카테고리 집합을 요구하는 경우가 많아 응용 시나리오에 큰 제약을 받는다. 본 논문에서는 오픈-보이지 않는 객체 탐지뿐만 아니라 탐지된 객체에 대해 계층적인 레이블을 생성할 수 있는 고성능 탐지기인 DetCLIPv3을 제안한다. DetCLIPv3의 핵심은 세 가지 설계 요소로 구성된다. 첫째, 유연한 모델 아키텍처: 우리는 강력한 오픈-셋 탐지 프레임워크를 도출하였으며, 캡션 헤드(caption head)를 통합함으로써 객체 캡션 생성 능력을 추가하였다. 둘째, 높은 정보 밀도의 데이터: 시각적 대규모 언어 모델(visual large language model)을 활용한 자동 레이블링 파이프라인을 개발하여 대규모 이미지-텍스트 쌍에 대한 캡션을 정교화하였으며, 이로 인해 다양한 세부 수준의 객체 레이블을 풍부하게 제공함으로써 학습 성능을 향상시켰다. 셋째, 효율적인 학습 전략: 저해상도 입력을 사용한 사전 학습 단계를 통해 객체 캡셔너가 방대한 이미지-텍스트 쌍 데이터로부터 광범위한 시각적 개념을 효율적으로 학습할 수 있도록 하였고, 이후 고해상도 샘플이 적은 수의 데이터를 활용한 미세조정 단계를 통해 탐지 성능을 추가로 향상시켰다. 이러한 효과적인 설계를 통해 DetCLIPv3는 우수한 오픈-보이지 않는 탐지 성능을 보였다. 예를 들어, Swin-T 기반 모델은 LVIS minival 벤치마크에서 47.0의 제로샷 고정 AP(Zero-shot fixed AP)를 달성하였으며, GLIPv2, GroundingDINO, DetCLIPv2보다 각각 18.0, 19.6, 6.6 AP 높은 성능을 기록하였다. 또한, VG 데이터셋에서 밀집 캡션(dense captioning) 작업에서는 최신 기준인 19.7 AP를 달성하여 강력한 생성 능력을 입증하였다.