센서 없이 깊이 예측: 단일 카메라 비디오를 활용한 비지도 학습의 구조 활용

RGB 입력으로부터 장면 깊이를 예측하는 것은 실내 및 실외 로봇 네비게이션 모두에 있어 어려운 과제입니다. 본 연구에서는 단일 카메라 비디오를 통해 감독을 제공받는 장면 깊이와 로봇 자기운동의 비지도 학습 문제를 다루며, 이는 카메라가 로보틱스에서 가장 저렴하고 제약이 적으며 널리 사용되는 센서이기 때문입니다.비지도 이미지-깊이 학습 분야에서 이전 연구들은 강력한 기준을 설정하였습니다. 우리는 새로운 접근법을 제안하여 더 높은 품질의 결과를 생성하고 움직이는 물체를 모델링할 수 있으며, 데이터 도메인 간의 전송 능력을 보여주는데, 예를 들어 실외에서 실내 장면으로의 전송 등입니다. 주요 아이디어는 장면과 개별 물체, 카메라 자기운동 및 물체 운동을 모델링하여 학습 과정에 기하학적 구조를 도입하는 것입니다. 단일 카메라 비디오를 입력으로 사용하여 이러한 운동들을 학습합니다. 또한, 미지의 도메인에 대해 즉시 적응할 수 있는 온라인 정교화 방법을 소개합니다.제안된 접근법은 모든 최신 접근법, 예를 들어 학습된 플로우(learned flow)를 통해 운동을 처리하는 방법들을 포함하여 성능을 초월합니다. 우리의 결과는 스테레오 감독을 사용한 것들과 품질 면에서 유사하며, 많은 물체 운동을 포함하는 장면과 데이터셋에서 깊이 예측 성능을 크게 향상시킵니다. 이 접근법은 실제적으로 중요한 의미가 있으며, 도시 환경에서 수집된 데이터로 훈련된 모델들을 실내 네비게이션 환경으로 전송함으로써 다양한 환경 간의 전송 가능성을 제공합니다. 본 논문과 관련된 코드는 https://sites.google.com/view/struct2depth 에서 확인할 수 있습니다.