
要約
単一のRGB画像から深度を推定することは、コンピュータビジョンにおける基本的な課題であり、最も直接的には教師あり深層学習を使用して解決されます。単一のRGB画像からの教師なし深度学習分野では、深度が明示的に与えられません。既存の研究では、ステレオペア、単眼ビデオ、または複数の視点を受け取り、構造から運動(Structure-from-Motion)に基づく損失関数を使用して深度推定ネットワークを訓練しています。本研究では、これらの異なる視点ではなく、焦点からの深度情報を用いています。学習は新しいポイントスプレッド関数(Point Spread Function)畳み込み層に基づいており、各画像位置でのボケ円(Circle-Of-Confusion)から生じる位置依存カーネルを適用します。我々は5つの一般的な深度推定およびライティングフィールド画像データセットから派生したデータで方法を評価し、KITTIおよびMake3Dデータセットにおいて教師あり手法と同等の結果を示し、教師なし学習手法よりも優れた性能を達成しました。被写界深度(Depth from Defocus)現象はデータセットに特異的ではないため、この現象に基づく学習は各データセットの特定のコンテンツに対して過学習しにくいと仮説を立てています。実験結果は確かにその通りであり、我々の手法を使用して一つのデータセットで学習した推定器は他のデータセットでも直接教師あり手法よりも良い結果を提供することが示されました。