HyperAIHyperAI

Command Palette

Search for a command to run...

FutureDepth: 未来を予測する学習がビデオ深度推定を改善する

Rajeev Yasarla Manish Kumar Singh Hong Cai Yunxiao Shi Jisoo Jeong Yinhao Zhu Shizhong Han Risheek Garrepalli Fatih Porikli

概要

本論文では、新しいビデオ深度推定手法である FutureDepth を提案します。この手法は、モデルが複数フレームと運動の手がかりを暗黙的に活用し、学習時に未来を予測することで深度推定の精度を向上させます。具体的には、複数の連続フレームの特徴を取り扱い、1ステップ先の多フレーム特徴を反復的に予測するように訓練された未来予測ネットワーク(F-Net)を提案します。これにより、F-Net は基礎的な運動情報と対応情報を学習し、その特徴を深度解码プロセスに組み込むことができます。さらに、多フレーム対応手がかりの学習を豊かにするために、適応的にマスクされた自動エンコーディングによる多フレーム特徴量の再構成ネットワーク(R-Net)も利用します。推論時には、F-Net と R-Net の両方がクエリを生成し、深度デコーダーと共に作業を行い、最終的な微調整ネットワークも使用されます。NYUDv2, KITTI, DDAD, および Sintel といったいくつかのベンチマークデータセットで広範な実験を行った結果、室内、ドライビング、オープンドメインなどのシナリオにおいて FutureDepth はベースラインモデルよりも大幅に改善され、既存のビデオ深度推定手法を上回り、新たな最先端(SOTA)精度を達成しました。さらに FutureDepth は既存の SOTA ビデオ深度推定モデルよりも効率的であり、単眼モデルと比較しても同程度のレイテンシーを持つことが示されました。注:「深度解码」は一般的に「深度デコード」と表記されるため、「深度デコード」を使用しました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています