17일 전

시각적 장소 인식을 위한 최적 운송 집계

Sergio Izquierdo, Javier Civera
시각적 장소 인식을 위한 최적 운송 집계
초록

시각적 장소 인식(Visual Place Recognition, VPR)의 과제는 다양한 장소에서 촬영된 광범위한 이미지 데이터베이스에서 참조 이미지를 기반으로 쿼리 이미지를 매칭하는 것으로, 오직 시각적 정보에 의존한다. 최신 기술은 각 이미지에 대한 전역 기술자(global descriptor)를 형성하기 위해 딥 백본에서 추출한 특징들의 집계에 중점을 둔다. 본 연구에서는 NetVLAD의 지역 특징을 클러스터에 소프트 할당하는 방식을 최적 운송 문제(optimal transport problem)로 재정의한 SALAD(Sinkhorn Algorithm for Locally Aggregated Descriptors)를 제안한다. SALAD는 특징-클러스터 간 관계뿐만 아니라 클러스터-특징 간 관계도 고려하며, 정보가 부족한 특징을 선택적으로 제거하기 위해 '더스트빈(dustbin)' 클러스터를 도입하여 전반적인 기술자의 품질을 향상시킨다. 또한, 지역 특징의 표현 능력을 강화하고 훈련에 필요한 시간을 크게 줄이기 위해 DINOv2를 백본으로 활용하고 미세 조정(fine-tune)한다. 그 결과, 단일 단계(single-stage) 방식인 본 방법은 공개 VPR 데이터셋에서 기존 단일 단계 기반 기법들을 모두 상회할 뿐만 아니라, 더 높은 비용이 소요되는 재정렬(re-ranking)을 추가하는 이단계(two-stage) 방법들 역시 초월한다. 코드와 모델은 https://github.com/serizba/salad 에서 공개되어 있다.