すべてのピクセルが重要である:3次元全体理解に基づく形状と運動の統合学習

最近、深層畳み込みニューラルネットワークを用いて、ラベルの付いていないビデオを見ることで単一フレーム内の3次元幾何学と連続フレーム間の光学フローを推定する技術に大きな進展が見られています。現行の最先端(SoTA)手法では、これらの2つのタスクを独立して扱っています。既存の深度推定手法における一般的な仮定の1つは、シーンに独立した動く物体が含まれていないことです。一方、物体の動きは光学フローを使用することで容易にモデル化できます。本論文では、これら2つのタスクを全体として扱い、すなわち画素ごとの3次元幾何学と運動を同時に理解することを目指します。これにより静的なシーンの仮定が必要なくなり、学習プロセス中に内在する幾何学的一貫性が強制され、両方のタスクで大幅な性能向上が得られます。我々はこの手法を「Every Pixel Counts++」または「EPC++」と呼びます。具体的には、訓練中においてビデオから2つの連続フレームが与えられた場合、カメラの動き(MotionNet)、密集深度マップ(DepthNet)、および2つのフレーム間での画素ごとの光学フロー(OptFlowNet)をそれぞれ予測するために3つの並列ネットワークを使用します。これらの3種類の情報は全体的な3次元運動パーサー(HMP)に入力され、剛体背景と動く物体の画素ごとの3次元運動が分離され回復されます。異なるシーンを持つデータセット上で包括的な実験を行いました。これらにはドライビングシナリオ(KITTI 2012およびKITTI 2015データセット)、屋外/屋内混合シーン(Make3D)、および合成アニメーション(MPI Sintelデータセット)が含まれています。深度推定、光学フロー推定、自己位置姿勢推定(odometry)、動く物体セグメンテーション、シーンフロー推定という5つのタスクにおける性能評価結果は、我々のアプローチが他のSoTA手法よりも優れていることを示しています。コードは以下のURLから入手可能です:https://github.com/chenxuluo/EPC