
단일 이미지에서 정확한 깊이 측정을 얻는 것은 3D 센싱의 흥미로운 해결책을 제공합니다. CNN(합성곱 신경망)은 이 분야에서 상당한 개선을 가져왔으며, 최근 트렌드는 지오메트리 기반 이미지 재구성 신호를 사용하여 지도 학습에 필요한 라벨 대신 무지도 학습을 가능하게 하는 방향으로 변화하였습니다. 현재, 이러한 목적을 위해 최첨단 기술들은 이중 시스템(binocular stereo rig)으로 획득된 이미지를 이용하여 위에서 언급한 감독 원칙에 따라 역깊이(i.e., disparity)를 예측하는 방법을 사용하고 있습니다. 그러나 이러한 방법들은 오clusion 근처, 왼쪽 이미지 경계 등 스테레오 설정에서 유래된 잘 알려진 문제들을 가지고 있습니다.따라서 본 논문에서는 이러한 문제들을 해결하기 위해 훈련 과정에서 삼중 시스템(trinocular domain)으로 전환하는 접근법을 제안합니다. 중앙 이미지를 기준으로 하여, 이를 왼쪽과 오른쪽 프레임과 짝짓기하여 CNN(합성곱 신경망)을 디스파리티 표현 추론에 대해 훈련시킵니다. 이 전략은 전형적인 스테레오 아티팩트에 영향받지 않는 깊이 맵을 얻는데 도움이 됩니다. 또한, 삼중 데이터셋이 거의 존재하지 않기 때문에, 현재 사용 가능한 이중 데이터셋에서 삼중 가정을 강제할 수 있는 새로운 교차 훈련 절차를 소개합니다.KITTI 데이터셋에 대한 철저한 실험 결과는 우리의 제안이 이중 스테레오 쌍으로 훈련된 무지도 단일 눈 깊이 추정 방법들뿐만 아니라 다른 큐(cues)를 활용하는 모든 알려진 방법들보다 우수함을 확인해주었습니다.