
시각적 지오로컬라이제이션(VG)은 주어진 사진이 어떤 위치에서 촬영되었는지를, 위치가 알려진 대규모 이미지 데이터베이스와 비교함으로써 추정하는 작업이다. 기존 기술들이 실제 도시 전체 규모의 VG 응용에 어떻게 작동할지 조사하기 위해, 우리는 기존 최대 데이터셋보다 30배 더 큰 규모를 가진, 전체 도시를 커버하는 새로운 데이터셋인 '샌프란시스코 eXtra Large(San Francisco eXtra Large)'을 구축하였다. 이 데이터셋은 다양한 도전적인 케이스를 포함하고 있으며, 기존의 제한된 범위를 넘어서는 실용적 시나리오를 제공한다. 그러나 우리는 현재의 방법들이 이러한 대규모 데이터셋에 스케일링되지 못함을 발견하였다. 이를 해결하기 위해, 일반적으로 사용되는 대조 학습(contrastive learning)이 요구하는 비용이 큰 마이닝 과정을 피하면서도 분류 문제로 학습을 재정의하는, 매우 확장 가능한 새로운 학습 기법인 CosPlace를 설계하였다. 우리는 다양한 데이터셋에서 최신 기준(SOTA) 성능을 달성하였으며, CosPlace가 강한 도메인 전이에 대해 뛰어난 내구성을 갖는다는 점을 확인하였다. 또한 기존 최신 기술 대비, CosPlace는 학습 시 GPU 메모리 사용량을 약 80% 감소시키며, 8배 작아진 서술자(descriptor)로도 더 우수한 성능을 달성함으로써, 도시 전체 규모의 실세계 시각적 지오로컬라이제이션을 위한 길을 열었다. 데이터셋, 코드 및 학습된 모델은 연구 목적을 위해 https://github.com/gmberton/CosPlace 에서 공개되어 있다.