
要約
近年、自己監督モノocular深度推定の分野で大きな進歩が見られています。多くの手法は学習時にステレオデータを前提としていますが、通常はその利用が不十分であり、単に参照信号として扱われています。本研究では、学習時には左右の画像を同等に使用しながら、テスト時には単一の入力画像だけでモノocular深度推定を行う新しい自己監督アプローチを提案します。我々のシアムネットワークアーキテクチャは、2つの双子のネットワークから構成され、それぞれが単一の画像から視差マップを予測する能力を学習します。しかし、テスト時にはこれらのネットワークのうち1つだけを使用して深度を推定します。我々は標準的なKITTI Eigenスプリットベンチマークにおいて最先端の結果を示し、新規のKITTI単眼ビューベンチマークでも最高得点の自己監督手法となっています。さらに、本手法が新しいデータセットにも汎化できる能力を示すために、学習に使用しなかったMake3Dベンチマークでの結果も提供しています。注:「モノocular」は一般的には「単眼」(たんがん)と訳されることが多いですが、「モノocular」(モノオキュラー)という表現も使用されます。ここでは「モノocular」を使用しましたが、「単眼」に変更することも可能です。