2달 전

Pair-VPR: 시각적 장소 인식을 위한 장소 인식 기반 사전 학습 및 대조적 쌍 분류

Stephen Hausler; Peyman Moghadam
Pair-VPR: 시각적 장소 인식을 위한 장소 인식 기반 사전 학습 및 대조적 쌍 분류
초록

본 연구에서는 시각적 장소 인식(VPR)을 위한 새로운 공동 학습 방법을 제안합니다. 이 방법은 전역 설명자와 재순위 결정용 쌍 분류기를 동시에 학습합니다. 쌍 분류기는 주어진 이미지 쌍이 같은 장소에서 찍혔는지를 예측할 수 있습니다. 네트워크는 인코더와 쌍 분류기 모두에 비전 트랜스포머 구성 요소만을 사용하며, 각 구성 요소는 해당 클래스 토큰을 사용하여 학습됩니다. 기존의 VPR 방법에서는 일반적으로 ImageNet과 같은 일반 이미지 데이터셋으로부터 사전 학습된 가중치를 사용하여 네트워크를 초기화합니다. 본 연구에서는 대체 사전 학습 전략을 제안하며, 이는 쌍 마스크 이미지 모델링(Siamese Masked Image Modelling)을 사전 학습 작업으로 사용하는 것입니다. 우리는 VPR에 특화된 시각적 특징을 학습하기 위해 큰 VPR 데이터셋들의 컬렉션에서 장소 인식 능력을 고려한 이미지 샘플링 절차를 제안합니다. 두 번째 학습 단계에서 마스크 이미지 모델링 인코더와 디코더 가중치를 재사용함으로써, Pair-VPR는 ViT-B 인코더를 사용하여 다섯 개의 벤치마크 데이터셋에서 최고 수준의 VPR 성능을 달성할 수 있으며, 더 큰 인코더를 사용하면 위치 추정 재현율에서도 추가적인 개선이 가능합니다. Pair-VPR 웹사이트: https://csiro-robotics.github.io/Pair-VPR.