
초록
크로스뷰 이미지 지오로컬라이제이션을 위한 주류 CNN 기반 방법들은 폴라 변환(polar transform)에 의존하며, 전역 상관관계를 모델링하지 못하는 한계를 가지고 있다. 본 연구에서는 이러한 문제를 다른 관점에서 해결하기 위해 순수한 트랜스포머 기반 접근법(TransGeo)을 제안한다. TransGeo는 트랜스포머가 전역 정보 모델링 및 명시적인 위치 정보 인코딩에 강점을 지닌 점을 최대한 활용한다. 또한 트랜스포머의 입력 유연성을 활용하여, 정보가 없는 이미지 패치를 제거할 수 있는 어텐션 기반 비균일 자르기(attention-guided non-uniform cropping) 방법을 제안함으로써, 성능 저하를 거의 유발하지 않으면서 계산 비용을 감소시킨다. 절약된 계산 자원은 정보가 풍부한 패치에만 해상도를 높이는 데 재할당할 수 있으며, 추가적인 계산 비용 없이 성능 향상을 달성할 수 있다. 이 ‘어텐션을 집중하고 확대’하는 전략은 사람의 이미지 관찰 방식과 매우 유사하다. 특히 TransGeo는 도시 및 농촌 데이터셋에서 모두 최신 기준(SOTA) 성능을 달성하며, CNN 기반 방법에 비해 훨씬 낮은 계산 비용을 요구한다. 폴라 변환에 의존하지 않으며, CNN 기반 방법보다 더 빠른 추론 속도를 제공한다. 코드는 다음 링크에서 확인할 수 있다: https://github.com/Jeff-Zilence/TransGeo2022.