13일 전
VMLoc: 기반 학습 다중 모달 카메라 위치 추정을 위한 변분 융합
Kaichen Zhou, Changhao Chen, Bing Wang, Muhamad Risqi U. Saputra, Niki Trigoni, Andrew Markham

초록
최근의 학습 기반 접근법들은 단일 촬영(single-shot) 카메라 위치 추정 분야에서 놀라운 성과를 달성해왔다. 그러나 여러 모달리티(예: 이미지 및 깊이)를 어떻게 최적으로 융합할지, 그리고 입력 데이터가 저하되거나 누락된 경우를 어떻게 다룰지에 대한 연구는 여전히 부족한 실정이다. 특히, 기존의 딥 융합 접근법들이 단일 모달리티 모델과 비교해 유의미한 성능 향상을 보이지 못한다는 점을 주목할 필요가 있다. 우리는 이러한 현상이 각 모달리티의 고유한 강점을 고려하지 않은 단순한 특징 공간 융합 방식(예: 합성 또는 연결)에 기인한다고 추측한다. 이를 해결하기 위해, 변분적 전문가의 곱(Product-of-Experts, PoE)을 통해 다양한 센서 입력을 공통의 은닉 공간으로 변환한 후, 주의 기반(attention-based) 융합을 수행하는 엔드투엔드 프레임워크인 VMLoc를 제안한다. 기존의 다중 모달리티 변분 모델들이 단순한 변분 오토인코더(VAE)의 목적 함수를 직접 수정하는 방식을 취하는 것과 달리, 본 연구에서는 중요도 가중치 기반의 편향 없는 목적 함수를 통해 카메라 위치 추정을 정확하게 수행할 수 있음을 보여준다. 제안된 모델은 RGB-D 데이터셋을 대상으로 광범위하게 평가되었으며, 실험 결과는 본 모델의 유효성을 입증한다. 소스 코드는 다음 링크에서 확인할 수 있다: https://github.com/kaichen-z/VMLoc.