
要約
私たちは、単眼深度、光流、自己運動の推定を目的としたビデオからの共同非監督学習フレームワークであるGeoNetを提案します。この3つの成分は3次元シーンジオメトリの性質によって結合され、私たちのフレームワークによりエンドツーエンドで共同学習されます。具体的には、各モジュールの予測から幾何学的な関係が抽出され、その後静的および動的シーン部分を別々に推論するための画像再構成損失として組み合わされます。さらに、外れ値や非ランベルト領域に対するロバスト性を向上させる適応的な幾何学的一貫性損失を提案します。これは、オクルージョンとテクスチャの曖昧さを効果的に解決します。KITTIドライビングデータセットでの実験結果から、私たちの手法はこれら3つのタスクすべてにおいて最先端の成果を達成しており、従来の非監督方法よりも優れており、監督方法と同等の性能を示しています。注:「非ランベルト領域」(non-Lambertian regions)は表面が理想的な拡散反射を行わない領域を指し、「オクルージョン」(occlusions)は物体が他の物体によって遮蔽される現象を意味します。これらの用語は専門的な文脈で使用されるため、一般的な日本語表現ではなく専門用語を使用しました。