
단안 깊이 추정을 위한 합성곱 신경망(Convolutional Neural Networks, CNNs)은 실외 주행 환경에서 뛰어난 성능을 보여주고 있다. 그러나 단안 영상 시퀀스를 이용한 실내 깊이 추정의 자기지도 학습은 다음과 같은 두 가지 주요 이유로 연구자들에게 매우 도전적인 과제이다. 첫째, 저텍스처 영역이 넓게 분포해 있는 점이며, 둘째, 실내 학습 데이터셋에서 발생하는 복잡한 자가 운동(Ego-motion)이다. 본 연구에서 제안하는 IndoorDepth는 두 가지 혁신적 요소를 포함한다. 특히, 저텍스처 영역으로 인한 도전에 대응하기 위해 개선된 구조적 유사도(Structural Similarity, SSIM) 함수를 활용한 새로운 광학적 손실(photometric loss)을 제안한다. 또한, 자가 운동 예측의 정확도 저하 문제를 더욱 완화하기 위해, 다양한 학습 단계에서 다중 광학적 손실을 사용하여 두 개의 잔차 자가 운동 블록(Residual Pose Blocks)을 갖는 깊은 자가 운동 네트워크를 학습한다. 후속적인 제거 실험(Ablation Study)을 통해 각 새로운 아이디어의 효과를 검증할 수 있다. NYUv2 벤치마크에서의 실험 결과, 본 연구의 IndoorDepth는 기존 최고 성능 기법들에 비해 큰 성능 우위를 보였다. 또한, ScanNet 데이터셋을 이용한 실험을 통해 본 방법의 일반화 능력도 검증하였다. 코드는 https://github.com/fcntes/IndoorDepth 에서 공개되어 있다.