
要約
堅牢な幾何学的および意味論的なシーン理解は、自動運転やロボットナビゲーションなどの多くの実世界アプリケーションにおいてますます重要となっています。本論文では、幾何学的および意味論的なシーン理解を同時に行う多タスク学習ベースのアプローチを提案します。具体的には、深度予測(単眼深度推定と深度補完)と意味論的なシーンセグメンテーションを共同で行います。当アプローチは、時間制約付き再帰ネットワーク内での複雑なスキップ接続、敵対的訓練、ならびに連続フレームの時間制約を独自に活用し、一貫性のある深度と意味クラスラベルを同時に生成します。広範な実験評価により、当アプローチが他の現代の最先端技術と比較して有効であることが示されています。