2ヶ月前
FutureDepth: 未来を予測する学習がビデオ深度推定を改善する
Yasarla, Rajeev ; Singh, Manish Kumar ; Cai, Hong ; Shi, Yunxiao ; Jeong, Jisoo ; Zhu, Yinhao ; Han, Shizhong ; Garrepalli, Risheek ; Porikli, Fatih

要約
本論文では、新しいビデオ深度推定手法である FutureDepth を提案します。この手法は、モデルが複数フレームと運動の手がかりを暗黙的に活用し、学習時に未来を予測することで深度推定の精度を向上させます。具体的には、複数の連続フレームの特徴を取り扱い、1ステップ先の多フレーム特徴を反復的に予測するように訓練された未来予測ネットワーク(F-Net)を提案します。これにより、F-Net は基礎的な運動情報と対応情報を学習し、その特徴を深度解码プロセスに組み込むことができます。さらに、多フレーム対応手がかりの学習を豊かにするために、適応的にマスクされた自動エンコーディングによる多フレーム特徴量の再構成ネットワーク(R-Net)も利用します。推論時には、F-Net と R-Net の両方がクエリを生成し、深度デコーダーと共に作業を行い、最終的な微調整ネットワークも使用されます。NYUDv2, KITTI, DDAD, および Sintel といったいくつかのベンチマークデータセットで広範な実験を行った結果、室内、ドライビング、オープンドメインなどのシナリオにおいて FutureDepth はベースラインモデルよりも大幅に改善され、既存のビデオ深度推定手法を上回り、新たな最先端(SOTA)精度を達成しました。さらに FutureDepth は既存の SOTA ビデオ深度推定モデルよりも効率的であり、単眼モデルと比較しても同程度のレイテンシーを持つことが示されました。注:「深度解码」は一般的に「深度デコード」と表記されるため、「深度デコード」を使用しました。