18일 전

시엠즈 네트워크를 위한 일반화된 대조 최적화를 통한 장소 인식

María Leyva-Vallina, Nicola Strisciuglio, Nicolai Petkov
시엠즈 네트워크를 위한 일반화된 대조 최적화를 통한 장소 인식
초록

시각적 장소 인식(Visual place recognition)은 컴퓨터 비전 분야에서 도전적인 과제이며, 카메라 기반의 위치 추정 및 탐색 시스템의 핵심 구성 요소이다. 최근 컨볼루션 신경망(Convolutional Neural Networks, CNNs)은 높은 성능과 우수한 일반화 능력을 달성하였다. 일반적으로 이러한 CNN은 이미지 쌍 또는 트리플릿을 이진(binary) 방식으로 유사하거나 비유사로 레이블링한 데이터를 사용하여 학습한다. 그러나 실제 상황에서는 두 이미지 간의 유사도는 이진적이 아니라 연속적인 값이다. 또한, 이러한 CNN의 학습은 계산적으로 복잡하며, 비용이 큰 쌍(pair) 및 트리플릿(triplet) 탐색 전략을 수반한다. 본 연구에서는 이미지 유사도를 연속적인 측정치로 활용하는 일반화된 대비 손실(Generalized Contrastive Loss, GCL) 함수를 제안하고, 이를 바탕으로 시아모이 신경망(siamese CNN)을 학습한다. 더불어 이미지 쌍의 유사도 정도를 자동으로 레이블링하는 세 가지 기법을 제시하고, 이를 이용해 MSLS, TB-Places, 7Scenes 데이터셋을 재라벨링하였다. 실험을 통해 GCL 함수와 개선된 레이블링을 활용해 학습한 시아모이 CNN은 이진 레이블링을 사용한 기존 모델보다 일관되게 우수한 성능을 보였다. 특히 MSLS 데이터셋에서 학습된 본 연구의 모델은 NetVLAD, NetVLAD-SARE, AP-GeM, Patch-NetVLAD 등 최신 기술들을 초월하며, Pittsburgh30k, Tokyo 24/7, RobotCar Seasons v2, Extended CMU Seasons 데이터셋에서도 뛰어난 일반화 성능을 입증하였다. 또한 GCL 함수를 활용한 시아모이 네트워크 학습은 복잡한 쌍 탐색 과정 없이도 가능하다. 본 연구의 소스 코드는 https://github.com/marialeyvallina/generalized_contrastive_loss 에서 공개된다.