17일 전

EffoVPR: 시각적 장소 인식을 위한 효과적인 기초 모델 활용

Issar Tzachor, Boaz Lerner, Matan Levy, Michael Green, Tal Berkovitz Shalev, Gavriel Habib, Dvir Samuel, Noam Korngut Zailer, Or Shimshi, Nir Darshan, Rami Ben-Ari
EffoVPR: 시각적 장소 인식을 위한 효과적인 기초 모델 활용
초록

시각적 장소 인식(Visual Place Recognition, VPR)의 과제는 지오태깅된 이미지 데이터베이스에서 쿼리 이미지의 위치를 예측하는 것이다. 최근 VPR 분야의 연구들은 DINOv2와 같은 사전 훈련된 기반 모델(foundation model)을 활용할 경우 큰 성능적 이점을 얻을 수 있음을 강조하고 있다. 그러나 이러한 모델들은 VPR에 특화된 데이터로 추가 미세조정(fine-tuning)을 거치지 않으면 일반적으로 충분한 성능을 발휘하지 못한다는 문제가 있다. 본 논문에서는 기반 모델의 잠재력을 효과적으로 활용할 수 있는 새로운 접근법을 제안한다. 우리는 자기주의(self-attention) 계층에서 추출한 특징이 제로샷(zero-shot) 환경에서도 강력한 재정렬(re-ranker) 역할을 할 수 있음을 보여준다. 제안하는 방법은 기존의 제로샷 접근법을 모두 상회할 뿐만 아니라, 몇몇 지도학습(supervised) 기법과 경쟁 가능한 성능을 달성한다. 또한, 내부 ViT 계층을 활용한 단일 단계(single-stage) 접근법을 통해 전역(global) 특징을 생성할 수 있으며, 이는 128D까지 특징의 크기를 매우 작게 유지하면서도 최신 기술 수준(SOTA, state-of-the-art)의 성능을 달성함을 보였다. 더불어, 국소적 기반 특징(local foundation features)을 재정렬에 통합함으로써 성능 격차를 더욱 확대할 수 있었다. 본 방법은 오염, 일주기 변화, 계절 변화와 같은 어려운 조건에서도 뛰어난 견고성(robustness)과 일반화 능력을 보이며, 새로운 최고 성능 기록을 수립하였다.