DetCLIPv2: 단어-영역 정렬을 통한 확장 가능한 개방형 어휘 객체 탐지 사전학습

이 논문은 대규모 이미지-텍스트 쌍을 활용하여 개방형 어휘 객체 탐지(open-vocabulary object detection, OVD)를 달성하는 효율적이고 확장 가능한 학습 프레임워크인 DetCLIPv2를 제안한다. 기존의 OVD 프레임워크가 일반적으로 사전 학습된 비전-언어 모델(예: CLIP)에 의존하거나 의사 레이블링 절차를 통해 이미지-텍스트 쌍을 활용하는 반면, DetCLIPv2는 엔드투엔드 방식으로 막대한 양의 이미지-텍스트 쌍에서 세밀한 단어-영역 정렬을 직접 학습한다. 이를 달성하기 위해, 영역 제안(region proposals)과 텍스트 단어 간의 최대 단어-영역 유사도를 대조적 목적함수를 안내하는 데 활용한다. 광범위한 개념을 학습하는 동시에 위치 인식 능력을 갖추기 위해 DetCLIPv2는 탐지, 지정(grounding), 이미지-텍스트 쌍 데이터로부터 통합된 데이터 형식 하에 하이브리드 감독을 사용하여 학습한다. 교차 학습 방식을 채택하고 이미지-텍스트 쌍에 대해 저해상도 입력을 사용함으로써 DetCLIPv2는 이미지-텍스트 쌍 데이터를 효율적이고 효과적으로 활용한다. 동일한 학습 시간 내에 DetCLIP 대비 13배 더 많은 이미지-텍스트 쌍을 활용하며 성능도 향상시킨다. 사전 학습에 1300만 개의 이미지-텍스트 쌍을 사용한 DetCLIPv2는 뛰어난 개방형 어휘 탐지 성능을 보이며, Swin-T 기반 모델은 LVIS 벤치마크에서 40.4%의 제로샷 AP를 기록하여 이전의 GLIP/GLIPv2/DetCLIP보다 각각 14.4/11.4/4.5% AP 우수하며, 심지어 완전 감독 학습 대비 모델보다도 큰 성능 차이를 보인다.