
초록
단일 RGB 이미지에서 깊이를 추정하는 것은 잘못 제기된(in ill-posed)이고 본질적으로 모호한 문제입니다. 최신 딥러닝 방법들은 이제 정확한 2D 깊이 맵을 추정할 수 있지만, 이 맵들이 3D로 투영될 때는 국소 세부 정보가 부족하고 종종 심하게 왜곡됩니다. 우리는 깊이와 깊이 그래디언트를 예측한 후 이를 정확하고 상세한 깊이 맵으로 융합하는 빠르게 학습할 수 있는 두 개의 스트림을 가진 CNN을 제안합니다. 또한, 여러 이미지에 대한 새로운 집합 손실(set loss)을 정의하였습니다. 공통 이미지 집합 사이의 추정 값을 규제함으로써 네트워크는 과적합(over-fitting)에 덜 취약하며 경쟁 방법들보다 더 나은 정확도를 달성합니다. NYU Depth v2 데이터셋에서의 실험 결과, 우리의 깊이 예측은 최신 기술과 경쟁력 있으며 신뢰성 있는 3D 투영을 생성합니다.