11일 전

영역 중심의 이미지-언어 사전학습을 통한 오픈-보라티지 탐지

Dahun Kim, Anelia Angelova, Weicheng Kuo
영역 중심의 이미지-언어 사전학습을 통한 오픈-보라티지 탐지
초록

우리는 이미지 수준의 사전 훈련과 개방형 어휘 객체 탐지 사이의 격차를 해소하기 위해 영역 중심(image-language)의 사전 훈련 기반의 새로운 개방형 어휘 탐지 접근법을 제안한다. 사전 훈련 단계에서 분류 백본 위에 탐지기 아키텍처를 통합함으로써, 탐지 작업에 필요한 영역 수준의 인식을 보다 효과적으로 수행할 수 있도록 하였다. 이는 탐지 헤드가 대규모 이미지-텍스트 쌍으로부터 학습할 수 있도록 하여, 탐지에 적합한 표현을 학습하도록 지원한다. 본 방법은 의사 레이블링(pseudo-labeling) 없이 표준 대조 손실(contrastive loss)만을 사용하며, 대조 학습 방법에 대한 간단하면서도 효과적인 확장 방식으로, 등장하는 객체-의미적 신호(object-semantic cues)를 학습할 수 있다. 또한, 창문 주의(window attention) 기반으로 이동 창 학습(shifted-window learning) 방식을 제안하여, 백본 표현의 강건성, 번역 불변성(translation-invariant), 그리고 창문 패턴에 의한 편향을 줄이는 데 기여한다. 주요 LVIS 개방형 어휘 탐지 벤치마크에서, 일반적인 ViT-L 백본과 공개된 LAION 데이터셋을 사용하여 37.6 mask APr의 새로운 최고 성능을 기록하였으며, DataComp-1B 데이터셋을 사용할 경우 40.5 mask APr를 달성하여, 기존 최고 성능 방법보다 시스템 수준에서 +3.7 mask APr의 현저한 성능 향상을 보였다. COCO 벤치마크에서는 의사 레이블링이나 약한 감독 없이도 매우 경쟁력 있는 39.6 novel AP 성능을 달성하였다. 또한, 탐지 전이(transfer detection) 설정에서 본 방법의 성능을 평가한 결과, 기준 모델 대비 유의미한 성능 향상이 나타났으며, 시각화 결과를 통해 기존 기준 대비 사전 훈련 과정에서 객체의 국소성(object locality)이 자연스럽게 등장하는 것을 확인할 수 있었다.

영역 중심의 이미지-언어 사전학습을 통한 오픈-보라티지 탐지 | 최신 연구 논문 | HyperAI초신경