17일 전

ProGEO: 시각적 지오로컬라이제이션을 위한 이미지-텍스트 대조 학습을 통한 프롬프트 생성

Chen Mao, Jingqi Hu
ProGEO: 시각적 지오로컬라이제이션을 위한 이미지-텍스트 대조 학습을 통한 프롬프트 생성
초록

시각적 지오로컬라이제이션(Visual Geo-localization, VG)은 쿼리 이미지가 설명하는 위치를 식별하는 과정을 의미하며, 자율주행, 메타버스, 증강현실, SLAM 등 로보틱스 및 컴퓨터 비전 분야에서 널리 활용되고 있다. 특히 특정 텍스트 설명이 부족한 세밀한 이미지에서는 순수 시각적 방법을 직접 적용할 경우 모델이 지나치게 세밀한 특징에 집중하게 되어 이미지 내에 존재하는 의미 정보를 충분히 탐색하지 못하는 문제가 발생한다. 이를 해결하기 위해 우리는 시각 성능을 향상시키기 위한 이단계 훈련 방법을 제안하고, 대조 학습(contrastive learning)을 활용하여 도전적인 샘플을 효과적으로 탐색한다. 먼저 CLIP(대조적 언어-이미지 사전 훈련, Contrastive Language-Image Pretraining)의 다중모달 설명 능력을 활용하여 각 지리적 이미지 특징에 대해 학습 가능한 텍스트 프롬프트를 생성함으로써 모호한 설명을 형성한다. 이후 동적 텍스트 프롬프트를 이미지 인코더의 훈련에 활용함으로써, 이미지 인코더가 보다 우수하고 일반화 능력이 뛰어난 시각적 특징을 학습할 수 있도록 한다. 본 연구에서 제안하는 텍스트를 순수 시각 작업에 적용하는 전략은, 지리적 이미지에 정밀한 설명이 부족한 경우가 많아 다중모달 모델을 널리 활용하기 어려운 문제를 해결함으로써, 다중모달 모델을 지리적 이미지에 효과적으로 적용하는 데 기여한다. 제안한 전략의 유효성은 여러 대규모 시각적 지오로컬라이제이션 데이터셋에서 검증되었으며, 다양한 시각적 지오로컬라이제이션 데이터셋에서 경쟁력 있는 성능을 달성하였다. 본 연구의 코드와 모델은 https://github.com/Chain-Mao/ProGEO 에서 공개되어 있다.