다중 시점 지오로컬라이제이션을 위한 공동 표현 학습 및 핵심점 탐지
본 논문에서는 다양한 시점에서 촬영된 이미지를 매칭하는 크로스뷰 지오로컬라이제이션 문제를 연구한다. 이 작업의 핵심 동기는 시점에 관계없이 변하지 않는 구분 가능한 시각적 표현을 학습하는 것이다. 인간의 시각 시스템이 국소적 패턴을 탐색하는 방식을 영감으로 삼아, 단일 네트워크를 통해 구분 가능한 표현을 학습하고 주목할 만한 키포인트를 탐지하는 새로운 프레임워크인 RK-Net을 제안한다. 구체적으로, 특징 맵으로부터 대표적인 키포인트를 자동으로 탐지하고 주목할 만한 영역에 집중할 수 있는 유닛 빼기 주의 모듈(Unit Subtraction Attention Module, USAM)을 도입한다. USAM은 학습 가능한 파라미터가 매우 적지만, 뚜렷한 성능 향상을 제공하며, 다양한 네트워크에 쉽게 통합할 수 있다. 광범위한 실험을 통해 다음과 같은 결과를 입증하였다. (1) USAM을 도입함으로써 RK-Net은 추가적인 애너테이션 없이도 엔드투엔드로 공동 학습을 가능하게 한다. 표현 학습과 키포인트 탐지는 서로 밀접하게 관련된 작업이다. 표현 학습은 키포인트 탐지에 도움을 주며, 반대로 키포인트 탐지는 시점 변동으로 인한 큰 외형 변화에 대한 모델의 능력을 풍부하게 한다. (2) USAM은 구현이 간단하며, 기존 방법과 쉽게 통합되어 최신 기술 수준의 성능을 further 개선할 수 있다. 우리는 University-1652, CVUSA, CVACT 세 가지 도전적인 데이터셋에서 경쟁력 있는 지오로컬라이제이션 정확도를 달성하였다. 본 연구의 코드는 https://github.com/AggMan96/RK-Net 에서 공개되어 있다.