CamLessMonoDepth: 미지의 카메라 파라미터를 활용한 단안 깊이 추정

3차원 정보를 인식하는 것은 컴퓨터 비전 분야의 여러 응용에서 매우 중요한 요소이다. 최근 단일 카메라(depth estimation)에 기반한 깊이 추정 기술의 발전은, 실제 깊이 데이터(ground truth)가 필요 없이, 심층 신경망을 학습시켜 역깊이(inverse depth)와 카메라 자세(pose)를 예측함으로써 단일 카메라 입력으로부터 이러한 지식을 얻는 것이 가능함을 보여주었다. 그러나 이러한 방법의 대부분은 학습 과정에서 카메라 파라미터를 명시적으로 입력받아야 하는 한계를 가지고 있다. 이로 인해 실제 환경(와일드)에서 촬영된 영상 시퀀스는 학습에 활용할 수 없게 된다. 일부 기존 방법은 카메라 내부 파라미터(intrinsics)를 함께 예측할 수는 있으나, 카메라 파라미터를 입력으로 사용하는 최신 기법들과 비교했을 때 성능이 떨어진다. 본 연구에서는 단일 카메라 영상 시퀀스만을 이용하여, 핀홀 카메라의 내부 파라미터를 암묵적으로 추정하고, 동시에 깊이와 자세를 함께 추정하는 방법을 제안한다. 또한 효율적인 서브픽셀 컨볼루션(sub-pixel convolution)을 활용함으로써 고해상도의 정밀한 깊이 추정이 가능함을 보여준다. 더불어, 프레임 내 각 픽셀에 대한 불확실성 추정을 프레임워크에 통합함으로써, 본 연구의 실용적 적용 가능성을 강조하였다. 마지막으로, 카메라 내부 파라미터에 대한 사전 지식 없이도 정확한 깊이 정보를 예측할 수 있음을 입증하였으며, KITTI 벤치마크에서 기존의 최상위 기법들을 초월하는 성능을 달성하였다.