2ヶ月前

すべてのピクセルが重要:包括的な3D運動理解による教師なし幾何学学習

Yang, Zhenheng ; Wang, Peng ; Wang, Yang ; Xu, Wei ; Nevatia, Ram
すべてのピクセルが重要:包括的な3D運動理解による教師なし幾何学学習
要約

単一画像から3D幾何学を推定するために、ラベルの付いていないビデオを深層畳み込みニューラルネットワーク(DCN)で観察する手法が最近大きな進展を遂げています。現在の最先端(SOTA)手法は、剛体構造から運動(rigid structure-from-motion)の学習フレームワークに基づいており、幾何学推定のために3Dカメラの自己運動のみがモデル化されています。しかし、多くのビデオには動く物体も存在します。例えば、街中のシーンでは動く車が含まれることがあります。本論文では、そのような運動に対処するために、ピクセルごとの3D物体運動を学習フレームワークに追加的に組み込む方法を提案します。これにより、全体的な3Dシーンフローの理解が得られ、単一画像からの幾何学推定が助けられます。具体的には、ビデオから連続する2つのフレームが与えられた場合、運動ネットワークを使用してそれらの相対的な3Dカメラ姿勢と動く物体と剛体背景を区別するセグメンテーションマスクを予測します。光学フローネットワークは、密集した2Dピクセルごとの対応関係を推定するために使用されます。単一画像深度ネットワークは両方の画像に対する深度マップを予測します。これらの4種類の情報(2Dフロー、カメラ姿勢、セグメンテーションマスク、深度マップ)は微分可能な全体的な3D運動パーサー(Holistic 3D Motion Parser: HMP)に統合され、剛体背景と動く物体のピクセルごとの3D運動が復元されます。我々は2種類の3D運動に対して様々な損失関数を設計し、深度と運動ネットワークの訓練を行います。これにより推定された幾何学におけるさらなる誤差削減が達成されます。最後に、単眼ビデオからの3D運動混乱問題を解決するためにステレオ画像を結合して共同訓練を行います。KITTI 2015データセットでの実験結果は、我々の推定了几何学、3D運動および動く物体マスクが一貫性を持つだけでなく、他のSOTAアルゴリズムよりも大幅に優れていることを示しており、我々のアプローチの利点を証明しています。