
要約
単一画像から正確な深度測定を取得することは、3次元センシングの魅力的な解決策を代表しています。CNN(畳み込みニューラルネットワーク)はこの分野で大幅な改善をもたらしましたが、最近の傾向では、教師ありラベルの必要性が幾何学的に誘導された画像再構成信号によって置き換えられ、教師なし学習が可能となっています。現在、この目的のために最先端の技術は、両眼ステレオ装置で取得した画像を使用して、上記の監視原理に従って逆深度(すなわち視差)を予測しています。しかし、これらの方法はステレオ設定から引き継がれる閉塞領域や左画像端などでの既知の問題に悩まされています。そこで本論文では、これらの課題に対処するために三眼ドメインへの移行を提案します。中央の画像を基準として想定し、その左右のフレームと組み合わせて視差表現を推論するCNNを訓練します。この戦略により、典型的なステレオアーティファクトに影響を受けない深度マップを得ることが可能となります。さらに、三眼データセットがほとんど利用できないことを考慮し、現在利用可能な両眼データセットから三眼仮定を強制する新しい交互訓練手順を導入します。KITTIデータセットにおける詳細な実験結果は、私たちの提案手法が両眼ステレオペア上で教師なしで訓練された単眼深度推定の最先端手法および他のヒントに依存する既知の手法よりも優れていることを確認しています。