
단일 RGB 이미지에서 깊이를 추정하는 것은 컴퓨터 비전의 기본적인 작업으로, 감독된 딥 러닝을 사용하여 가장 직접적으로 해결할 수 있습니다. 단일 RGB 이미지에서 깊이를 추정하는 비감독 학습 분야에서는 깊이가 명시적으로 주어지지 않습니다. 이 분야의 기존 연구는 스테레오 쌍, 단안 영상, 또는 다중 시점을 입력으로 받으며, 모션 구조에 기반한 손실 함수를 사용하여 깊이 추정 네트워크를 훈련시킵니다. 본 연구에서는 다른 시점 대신 초점 신호에서 얻은 깊이에 의존합니다. 학습은 각 이미지 위치에서 혼동 원(Circle-Of-Confusion)으로부터 발생하는 위치별 커널을 적용하는 새로운 포인트 스프레드 함수(Point Spread Function) 합성곱 계층에 기반합니다. 우리는 5개의 일반적인 깊이 추정 및 라이트필드 이미지 데이터셋에서 파생된 데이터를 사용하여 우리의 방법을 평가하였으며, KITTI와 Make3D 데이터셋에서 감독된 방법과 유사한 결과를 보여주며 비감독 학습 접근법을 능가하였습니다. 초점 해제(de-focus)로부터 얻은 깊이는 데이터셋에 특화되지 않는 현상이므로, 이를 기반으로 한 학습은 각 데이터셋의 특정 내용에 과적합(overfitting)될 가능성이 적다고 가설을 세웠습니다. 우리의 실험 결과는 이 가설이 실제로 맞다는 것을 보여주며, 우리 방법을 사용하여 하나의 데이터셋에서 학습된 추정기는 다른 데이터셋에서 더 나은 결과를 제공하였습니다. 이는 직접적으로 감독된 방법보다 우수한 성능을 나타내는 것입니다.