AnyLoc: 보편적인 시각적 장소 인식을 향해

시각적 장소 인식(Visual Place Recognition, VPR)은 로봇의 위치 추정에 있어 핵심적인 역할을 한다. 현재까지 가장 뛰어난 성능을 보이는 VPR 기법들은 환경과 작업에 특화되어 있다. 이러한 기법들은 구조화된 환경(주로 도시 주행 환경)에서는 뛰어난 성능을 발휘하지만, 비구조화된 환경에서는 성능이 급격히 저하되어 대부분의 기법이 실제 세계에서의 안정적인 적용에 취약하다. 본 연구에서는 구조화된 환경과 비구조화된 환경(도시, 실외, 실내, 공중, 수중, 지하 환경 등)을 아우르는 광범위한 환경에서 재학습이나 미세 조정 없이도 효과적으로 작동하는 통합형 VPR 솔루션을 개발한다. 우리는 사전 학습된 자기지도 학습 모델(self-supervised models)을 활용하여 도출한 일반적인 특징 표현이 이러한 통합형 VPR 솔루션을 구축하기 위한 적절한 기반임을 입증한다. 이러한 특징 표현을 비지도 특징 집계(unsupervised feature aggregation)와 결합함으로써, AnyLoc라는 일련의 방법론이 기존 기법보다 최대 4배 이상 뛰어난 성능을 달성할 수 있음을 보였다. 또한, 이러한 특징 표현의 의미론적 특성을 분석함으로써, 유사한 환경에서의 데이터셋을 포함하는 독특한 도메인을 규명함으로써 성능을 추가로 6% 향상시켰다. 본 연구의 철저한 실험과 분석은 언제 어디서나, 어떤 시점과 시점에서도 적용 가능한 VPR 솔루션을 구축하는 기반을 마련한다. 독자분들은 우리 프로젝트 페이지와 인터랙티브 데모를 탐색해 보시기 바란다: https://anyloc.github.io/.