
초록
이 논문은 대규모 시각적 장소 인식을 위한 표현 학습을 탐구하는 것을 목표로 하며, 쿼리 이미지에 나타난 장소를 참조 이미지 데이터베이스와 비교함으로써 식별하는 과정을 포함한다. 이는 시간이 지남에 따라 발생할 수 있는 대규모 환경 변화(예: 날씨, 조명, 계절, 교통, 가림 현상 등)로 인해 매우 도전적인 과제이다. 현재의 연구 진전은 정확한 지상 진실(ground truth)을 갖춘 대규모 데이터베이스의 부족으로 인해 제한되고 있다. 이러한 문제를 해결하기 위해, 우리는 지구 모든 대륙에 걸쳐 40개 이상의 도시를 커버하며 14년에 걸쳐 수집된 데이터를 포함한, 현재까지 가장 광범위한 지리적 범위를 제공하는 새로운 이미지 데이터셋 GSV-Cities를 제안한다. 이후, 최근의 딥 메트릭 학습 기술의 잠재력을 최대한 활용하여 장소 인식에 특화된 네트워크를 학습하고, 다양한 손실 함수가 성능에 미치는 영향을 평가한다. 또한, 기존 방법들이 GSV-Cities에서 학습될 경우 성능이 상당히 향상됨을 보여준다. 마지막으로, 기존 기법들인 GeM, NetVLAD, CosPlace를 능가하는 새로운 완전 컨볼루션형 집계 레이어를 제안하고, 피츠버그, Mapillary-SLS, SPED, 노르드란드와 같은 대규모 벤치마크에서 새로운 최고 성능을 달성하였다. 본 연구에서 제안하는 데이터셋과 코드는 연구 목적을 위해 https://github.com/amaralibey/gsv-cities 에서 공개되어 있다.