16일 전

간단하고 효과적이며 일반적인: 다중 시점 이미지 지오로컬라이제이션을 위한 새로운 백본

Yingying Zhu, Hongji Yang, Yuxin Lu, Qiang Huang
간단하고 효과적이며 일반적인: 다중 시점 이미지 지오로컬라이제이션을 위한 새로운 백본
초록

이 연구에서는 교차 시점 지리적 위치 추정(task)에 특화된 간단하면서도 효과적인 백본 모델에 대한 중요한 그러나 아직 탐색이 부족한 문제에 주목한다. 기존의 교차 시점 지리적 위치 추정 기법들은 일반적으로 1) 복잡한 방법론, 2) GPU 자원을 집약적으로 소모하는 계산, 3) 항공 이미지와 지상 이미지가 중심 또는 방향이 정렬되어 있다는 엄격한 가정을 수반한다. 이러한 세 가지 도전 과제를 해결하기 위해, 우리는 새로운 백본 네트워크인 단순한 주의 기반 이미지 지리적 위치 추정 네트워크(Simple Attention-based Image Geo-localization network, SAIG)를 제안한다. 제안한 SAIG는 멀티헤드 자기주의(multi-head self-attention) 레이어를 통해 패치 간의 장거리 상호작용과 교차 시점 대응 관계를 효과적으로 표현한다. SAIG의 '좌측-깊은(narrow-deep)' 아키텍처는 성능 저하 없이 특징의 풍부함을 향상시키며, 얕고 효율적인 컨볼루션 스템(convolutional stem)은 국소성(locality)을 유지함으로써 패치화 경계 정보의 손실을 제거한다. 제안한 SAIG는 기존의 최상위 성능 기법들보다 훨씬 간단하면서도 교차 시점 지리적 위치 추정에서 최첨단 성능을 달성한다. 또한, 최첨단 기법 대비 모델 파라미터의 15.9%와 출력 차원의 절반만을 사용함에도 불구하고, 특별히 설계된 특징 집계 모듈이나 특징 정렬 알고리즘을 도입하지 않고도 다양한 교차 시점 데이터셋에 잘 적응한다. 더불어, SAIG는 이미지 검색 벤치마크에서도 경쟁력 있는 성능을 기록하며, 그 일반화 능력을 추가로 입증한다. 백본 네트워크로서 SAIG는 이해하기 쉬우며 계산적으로도 경량화되어 실제 응용 시나리오에서 매우 유의미하다. 또한, 공간 정보를 저차원 공간으로 혼합하고 투영하여 특징 서술자(feature descriptors)를 생성할 수 있는 단순한 공간 혼합 특징 집계 모듈(Spatial-Mixed feature aggregation module, SMD)을 제안한다. (코드는 https://github.com/yanghongji2007/SAIG 에 공개됨)

간단하고 효과적이며 일반적인: 다중 시점 이미지 지오로컬라이제이션을 위한 새로운 백본 | 최신 연구 논문 | HyperAI초신경