単眼深度推定のための深層順序回帰ネットワーク

単眼深度推定は、3次元シーンの幾何学的理解において重要な役割を果たしますが、不適切に設定された問題(ill-posed problem)です。最近の手法では、深層畳み込みニューラルネットワーク(DCNN)から得られる画像レベルの情報と階層的な特徴を探索することで、大幅な改善が見られています。これらの手法は深度推定を回帰問題としてモデル化し、平均二乗誤差を最小化することによって回帰ネットワークを訓練しますが、収束速度が遅く、満足のいく局所解を得るのが難しいという問題があります。また、既存の深度推定ネットワークでは反復的な空間プーリング操作が行われることが多く、望ましくない低解像度の特徴マップが生成されることがあります。高解像度の深度マップを得るためにはスキップ接続や多層逆畳み込みネットワークが必要となりますが、これによりネットワークの訓練が複雑化し、計算量も大幅に増加します。これらの問題を排除または少なくとも大幅に軽減するために、我々は間隔増加離散化(Spacing-Increasing Discretization, SID)戦略を導入し、深度を離散化して深度ネットワーク学習を順序回帰問題として再定義しました。通常の回帰損失を使用してネットワークを訓練することで、当手法は大幅に高い精度と同期的に高速な収束(faster convergence in synch)を達成しています。さらに、当手法では不要な空間プーリングを避けるとともに並列的に多尺度情報を捕捉するための多尺度ネットワーク構造を採用しています。本論文で説明されている手法は4つの挑戦的なベンチマークデータセット(KITTI [17]、ScanNet [9]、Make3D [50]、NYU Depth v2 [42])で最先端の結果を達成しており、Robust Vision Challenge 2018で第1位となっています。コードは以下のURLで公開されています: https://github.com/hufu6371/DORN。