
시각적 장소 인식(Visual Place Recognition, VPR)은 모바일 로봇과 자율주행을 비롯한 다양한 컴퓨터 비전 작업에서 핵심적인 역할을 한다. 이는 쿼리 이미지에 나타난 장소를 컴퓨터 비전 기술만을 활용하여 식별하는 과정을 의미한다. 대규모 환경에서는 반복적인 구조, 기상 조건 및 조명 변화로 인해 외관이 시간이 지남에 따라 극적으로 달라지는 실질적인 도전 과제가 존재한다. 이러한 문제를 해결하면서도, 실세계 환경에서 지연(latency)이 중요한 상황에서도 실용적이어야 하는 효율적인 VPR 기법의 개발이 요구된다. 이를 해결하기 위해 우리는 사전 훈련된 백본 모델의 특징 맵(feature maps)을 전역적 특징의 집합으로 취급하는 새로운 통합적 특징 집계 기법인 MixVPR을 제안한다. 이 방법은 특징 매핑 내 요소 간의 전역적 관계를 특징 혼합(feature mixing)의 계단식 구조를 통해 통합함으로써, NetVLAD 또는 TransVPR과 같이 국소적 또는 피라미드형 집계를 필요로 하지 않게 된다. 여러 대규모 벤치마크를 대상으로 한 광범위한 실험을 통해 본 기법의 효과성을 입증하였다. 기존 모든 기법보다 크게 우수한 성능을 달성하면서도, CosPlace 및 NetVLAD 대비 파라미터 수가 절반 미만에 그친다. 특히 Pitts250k-test에서 94.6%의 Recall@1 최고 기록을 달성하였으며, MapillarySLS에서는 88.0%, 특히 Nordland에서는 58.4%의 높은 성능을 기록하였다. 또한, Patch-NetVLAD, TransVPR, SuperGLUE와 같은 이단계 검색 기법들을 모두 능가하면서도, 수 주기 수준의 속도 향상을 달성하였다. 본 연구의 코드 및 학습된 모델은 https://github.com/amaralibey/MixVPR 에서 공개되어 있다.