Sample4Geo: 교차 뷰 지리 위치 인식을 위한 어려운 부정 샘플링

다른 시점의 이미지 위치를 정확히 결정하기 위해 추가적인 모듈, 특수한 사전 처리 또는 확대 전략이 필요한 크로스 뷰 지오-로케이션(Cross-View Geo-Localisation)은 여전히 어려운 과제입니다. 서로 다른 시점은 서로 다른 기하학적 구조를 가지므로, 극좌표 변환(polar transformation)과 같은 사전 처리는 이들을 통합하는 데 도움을 줍니다. 그러나 이는 왜곡된 이미지를 생성하며, 이를 교정해야 하는 문제를 초래합니다. 훈련 배치에 난이도 높은 부정 샘플(hard negatives)을 추가하면 전체 성능을 개선할 수 있지만, 지오-로케이션에서 사용되는 기본 손실 함수(loss functions)로는 이를 포함하기 어렵습니다. 본 논문에서는 대칭 InfoNCE 손실(symmetric InfoNCE loss)을 기반으로 한 대조 학습(contrastive learning) 방법론을 활용한 단순하면서도 효과적인 아키텍처를 제시합니다. 이 아키텍처는 현재 최고 수준의 결과를 초월하며, 집계 모듈(aggregation modules) 사용의 필요성을 제거하고, 추가적인 사전 처리 단계를 피하며, 알려지지 않은 지역에 대한 모델의 일반화 능력을 향상시키는 좁은 훈련 파이프라인으로 구성됩니다. 우리는 난이도 높은 부정 샘플을 위한 두 가지 샘플링 전략을 소개합니다. 첫 번째 전략은 지리적으로 인접한 위치를 명시적으로 활용하여 좋은 출발점을 제공합니다. 두 번째 전략은 이미지 임베딩(image embeddings) 간의 시각적 유사성을 활용하여 난이도 높은 부정 샘플을 추출합니다. 우리의 연구는 CVUSA, CVACT, University-1652 및 VIGOR와 같은 일반적인 크로스 뷰 데이터셋에서 우수한 성능을 보여주며, 크로스 영역과 동일 영역 설정 간의 비교를 통해 모델의 좋은 일반화 능력을 입증하였습니다.