기하학적 인식을 활용한 카메라 위치 추정을 위한 맵 학습

지도는 이미지 기반 카메라 위치 추정 및 시각적 SLAM(동시 국지화 및 지도 작성) 시스템의 핵심 구성 요소입니다: 지도는 이미지 간의 기하학적 제약 조건을 설정하고, 상대 자세 추정에서 발생하는 드리프트를 보정하며, 추적을 잃은 후 카메라를 재국지화하는 데 사용됩니다. 그러나 지도의 정확한 정의는 종종 응용 프로그램에 따라 다르며, 다양한 시나리오(예: 3D 랜드마크, 선, 평면, 시각 단어들의 집합)에 맞춰 수작업으로 제작됩니다. 우리는 이러한 지도를 깊은 신경망인 MapNet으로 표현하여 데이터 주도형 지도 표현을 학습할 수 있도록 제안합니다. 이전의 지도 학습 연구와 달리, MapNet은 이미지뿐만 아니라 비주얼 오디오미터와 GPS와 같은 저렴하고 흔한 센서 입력을 활용하여 카메라 위치 추정을 위해 이를 융합합니다. 이러한 입력이 전통적으로 번들 조정(bundle adjustment)이나 자세 그래프 최적화(pose-graph optimization)에서 사용되었던 기하학적 제약 조건은 MapNet 훈련 과정에서 손실 항(loss terms)으로 표현되며, 추론 과정에서도 사용됩니다. 이는 위치 추정 정확도를 직접적으로 개선하는 것 외에도, 장면에서 추가로 얻은 라벨이 없는 비디오 시퀀스를 사용하여 MapNet(즉, 지도)을 자기 감독 방식(self-supervised manner)으로 업데이트할 수 있게 합니다. 또한 우리는 딥러닝 기반 카메라 자세 회귀에 더 적합한 새로운 카메라 회전 매개변수화 방법을 제안합니다. 실내 7-Scenes 데이터셋과 실외 옥스퍼드 로봇카(Oxford RobotCar) 데이터셋에서 수행된 실험 결과는 이전 연구보다 유의미한 성능 향상을 보여주었습니다. MapNet 프로젝트 웹페이지는 https://goo.gl/mRB3Au입니다.