2ヶ月前
時間的一貫性を利用したリアルタイム動画深度推定
Haokui Zhang; Chunhua Shen; Ying Li; Yuanzhouhan Cao; Yu Liu; Youliang Yan

要約
静止画からの深度推定の精度は、最近、深層畳み込みニューラルネットワーク(CNN)から抽出される階層的な特徴を活用することで大幅に向上しました。静止画と比較して、動画フレーム間には豊富な情報が存在し、これを活用することで深度推定の性能を向上させることができます。本研究では、単眼動画からの深度推定において時間情報を探索することに焦点を当てています。具体的には、畳み込み長期短期記憶(CLSTM)の利点を活かし、新たな空間時間的なCLSTM(ST-CLSTM)構造を提案します。当社のST-CLSTM構造は、連続する動画フレーム間の空間的な特徴だけでなく、時間的な相関性や一貫性も捕捉でき、計算コストの増加はほとんどありません。さらに、推定された深度フレーム間の一貫性を維持するために、生成対抗学習スキームを適用し、時間的一貫性損失を設計しました。この時間的一貫性損失は空間損失と組み合わせてモデルをエンドツーエンドで更新します。時間情報を活用することで、リアルタイムで動作し視覚的に快適な結果を生成する動画深度推定フレームワークを構築しました。また、当社の手法は柔軟であり、既存のほとんどの深度推定フレームワークに一般化することができます。コードは以下のURLから入手可能です:https://tinyurl.com/STCLSTM