CLIM: 지역 표현을 위한 대조적 언어-이미지 모자이크

대규모 또는 오픈 범주에서 객체를 정확하게 탐지하기 위해서는 영역 표현과 언어 간의 시각-언어 정렬이 필요하다. 그러나 텍스트 레이블이나 설명이 포함된 고품질 박스 레이블을 확보하여 이러한 영역-텍스트 정렬을 학습하는 것은 비용이 매우 크고 실현 가능성이 낮다. 반면에 이미지-텍스트 쌍을 수집하는 것은 더 간단하지만, 객체의 정확한 위치 정보가 부족하여 영역과 텍스트를 정확히 연결할 수 없다. 본 논문에서는 대규모 이미지-텍스트 쌍을 효과적으로 활용하여 영역 표현과 텍스트 표현 간의 정렬을 수행하는 새로운 접근법인 대조적 언어-이미지 모자이크(Contrastive Language-Image Mosaic, CLIM)를 제안한다. CLIM은 여러 이미지를 모자이크 이미지로 결합하고, 각 이미지를 '가상 영역(pseudo region)'으로 간주한다. 각 가상 영역의 특징을 추출한 후, 대조 손실(contrastive loss)을 통해 해당 텍스트 임베딩과 유사하게, 다른 텍스트 임베딩과는 유사하지 않도록 학습함으로써, 비용이 큰 박스 레이블 없이도 영역-텍스트 정렬을 학습할 수 있도록 한다. CLIM은 일반적으로 적용 가능한 방법으로, 캡션 감독을 사용하는 다양한 오픈 범주 객체 탐지 방법에 지속적으로 성능 향상을 제공한다. 또한 CLIM은 시각-언어 모델의 영역 표현을 효과적으로 향상시켜, 오픈 범주 객체 탐지기의 강력한 기반 모델을 제공할 수 있다. 실험 결과, CLIM은 OV-COCO 및 OV-LVIS 벤치마크에서 다양한 기준 오픈 범주 객체 탐지기의 성능을 크게 향상시킴을 입증하였다. 코드는 https://github.com/wusize/CLIM 에서 공개되어 있다.