세계 어디에 있는가? 야외에서 트랜스포머 기반 지오로케이션

전 세계 어디에서나 촬영된 단일 지상 수준의 RGB 이미지로부터 지리적 위치(지오-로케이션)를 예측하는 것은 매우 어려운 문제입니다. 이 문제의 어려움은 다양한 환경 시나리오로 인한 이미지의 큰 다양성, 하루 중 시간, 날씨, 계절 등에 따라 같은 장소의 외관이 극적으로 변하는 점, 그리고 무엇보다도 단일 이미지에서 몇 개의 지오-로케이션 힌트만 있을 가능성이 있다는 점을 포함합니다. 이러한 이유로 대부분의 기존 연구는 특정 도시, 이미지 또는 전 세계적인 랜드마크에 제한되어 있습니다. 본 연구에서는 행성 규모의 단일 이미지 지오-로케이션을 위한 효율적인 해결책 개발에 초점을 맞추고 있습니다. 이를 위해 우리는 전체 이미지를 통해 미세한 세부 사항에 주목하고 극단적인 외관 변화 하에서도 강건한 특징 표현을 생성하는 통합된 듀얼 브랜치 트랜스포머 네트워크인 TransLocator를 제안합니다. TransLocator는 RGB 이미지와 그 의미 분할 맵을 입력으로 받아 각 트랜스포머 레이어 후 두 병렬 브랜치 간 상호작용을 수행하며, 다중 작업 방식으로 지오-로케이션과 장면 인식을 동시에 수행합니다. 우리는 TransLocator를 Im2GPS, Im2GPS3k, YFCC4k, YFCC26k 네 가지 벤치마크 데이터셋에서 평가하였으며, 최신 기술 대비 대륙 수준 정확도가 각각 5.5%, 14.1%, 4.9%, 9.9% 향상되는 것을 확인하였습니다. 또한 TransLocator는 실제 테스트 이미지에서도 검증되었으며, 이전 방법들보다 더 효과적임이 밝혀졌습니다.