17일 전

EigenPlaces: 시각적 장소 인식을 위한 시점에 강건한 모델 훈련

Gabriele Berton, Gabriele Trivigno, Barbara Caputo, Carlo Masone
EigenPlaces: 시각적 장소 인식을 위한 시점에 강건한 모델 훈련
초록

시각적 장소 인식(Visual Place Recognition)은 쿼리(query)로 간주되는 이미지의 시각적 특징에만 기반하여 그 이미지가 나타내는 장소를 예측하는 작업이다. 이는 일반적으로 이미지 검색(image retrieval) 기법을 통해 수행되며, 지오태깅된 사진으로 구성된 대규모 데이터베이스에서 쿼리와 가장 유사한 이미지를 찾는 방식으로 이루어진다. 이 과정에서는 학습된 전역 특징(global descriptors)을 활용한다. 이 작업의 주요 과제 중 하나는 다양한 시점에서 촬영된 동일한 장소를 인식하는 것이다. 이 제한을 극복하기 위해, 본 연구에서는 다양한 시점에서 촬영된 이미지에 기반하여 신경망을 훈련시키는 새로운 방법인 EigenPlaces를 제안한다. 이 방법은 학습된 전역 특징에 시점에 대한 강건성(viewpoint robustness)을 내재화하는 것을 목표로 한다. 핵심 아이디어는 동일한 관심 장소(point of interest)에 대한 다양한 시점의 이미지를 명시적으로 모델에 제시하기 위해 훈련 데이터를 군집화하는 것이다. 이러한 관심 장소의 선정은 추가적인 감독 신호 없이도 가능하다. 우리는 문헌에서 가장 포괄적인 데이터셋 세트를 대상으로 실험을 수행한 결과, EigenPlaces가 대부분의 데이터셋에서 기존 최고 성능 모델을 능가함을 확인하였으며, 훈련 시 GPU 메모리 사용량은 60% 감소하고, 특징 벡터 크기는 50% 작아지는 등 효율성도 크게 향상되었다. EigenPlaces의 코드와 훈련된 모델은 {\small{\url{https://github.com/gmberton/EigenPlaces}}}에서 제공되며, 다른 베이스라인 모델에 대한 결과는 {\small{\url{https://github.com/gmberton/auto_VPR}}}의 코드베이스를 활용하여 계산할 수 있다.