
이 연구에서는 이미지와 희소 포인트 클라우드로부터 밀도 높은 깊이 정보를 추론하기 위한 딥 신경망 아키텍처를 제안한다. 본 모델은 LIDAR 또는 기타 거리 측정 센서로부터 얻은 동기화된 희소 포인트 클라우드와 함께 카메라의 내부 캘리브레이션 파라미터를 사용하여 비디오 스트림을 기반으로 훈련된다. 추론 시에는 훈련 시 사용된 카메라 캘리브레이션과 다를 수 있는, 실제 추론에 사용되는 카메라의 캘리브레이션 정보를 입력으로 제공하며, 이와 함께 희소 포인트 클라우드와 단일 이미지가 함께 입력된다. 캘리브레이션된 역투영 레이어(Calibrated Backprojection Layer)는 캘리브레이션 행렬과 깊이 특징 디스크립터를 이용해 이미지의 각 픽셀을 3차원 공간으로 역투영한다. 이를 통해 생성된 3차원 위치 인코딩은 이미지 디스크립터 및 이전 레이어의 출력과 결합되어 인코더의 다음 레이어에 대한 입력으로 사용된다. 이후 디코더는 스트라이드 연결(skip-connections)을 활용하여 밀도 높은 깊이 맵을 생성한다. 제안하는 캘리브레이션된 역투영 네트워크(KBNet)는 비지도 학습 방식으로, 광학적 재투영 오차(photometric reprojection error)를 최소화함으로써 훈련된다. KBNet은 일반적인 정규화 기반 방식이 아닌, 훈련 데이터셋을 기반으로 누락된 깊이 값을 보간한다. 공개된 깊이 보완(depth completion) 벤치마크에서 테스트한 결과, 동일한 카메라를 훈련 및 테스트에 사용할 경우, 실내 환경에서 기존 최고 성능 대비 30.5%, 실외 환경에서 8.8%의 성능 향상을 달성하였다. 테스트 카메라가 훈련 시 사용된 카메라와 다를 경우, 성능 향상은 최대 62%에 달한다. 코드는 다음 링크에서 공개되어 있다: https://github.com/alexklwong/calibrated-backprojection-network.