17일 전

데이터 효율적인 대규모 장소 인식을 위한 계층적 유사도 감독

Maria Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov
데이터 효율적인 대규모 장소 인식을 위한 계층적 유사도 감독
초록

시각적 장소 인식(Visual Place Recognition, VPR)은 시각적 위치 추정을 위한 컴퓨터 비전의 핵심 과제이다. 기존의 방법들은 동일한 장소를 촬영한 이미지 쌍 또는 다른 장소를 촬영한 이미지 쌍을 사용하여 학습한다. 그러나 이러한 이진 형태의 유사성 표시는 카메라 자세의 연속성에 따라 동일한 장소에서 다양한 위치에서 촬영된 이미지 간의 연속적인 유사성 관계를 고려하지 못한다. 이와 같은 이진 유사성 정보는 VPR 모델 학습 과정에 노이즈가 많은 감독 신호를 유도하며, 이는 국소 최소값에 갇히는 현상을 초래하고, 수렴을 보장하기 위해 비용이 큰 하드 페어 마이닝 알고리즘을 필요로 한다. 카메라 자세의 차이로 인해 동일한 장소의 두 이미지 간에 시각적 정보가 부분적으로만 겹치는 사실에 착안하여, 우리는 VPR 데이터셋에 대해 자동 재라벨링 전략을 도입한다. 이 전략은 가용한 위치 추정 메타데이터를 기반으로 이미지 쌍에 대해 등급화된 유사성 레이블을 계산한다. 더불어, 등급화된 유사성 레이블을 활용하여 대조 네트워크를 학습하는 새로운 일반화된 대조 손실(Generalized Contrastive Loss, GCL)을 제안한다. 실험을 통해 새로운 레이블과 GCL의 사용이 하드 페어 마이닝을 제거할 수 있음을 입증하였으며, 이는 최근접 이웃 탐색 기반의 이미지 기술자(descriptor)를 보다 효과적으로 학습시켜, 비용이 큰 하드 페어 마이닝과 재순서 기법을 필요로 하는 기존 방법들과 비교해도 우수하거나 유사한 성능을 달성함을 보였다. 코드 및 모델은 다음에서 공개된다: https://github.com/marialeyvallina/generalized_contrastive_loss