13日前
MAMo:メモリとアテンションを活用した単眼動画深度推定
Rajeev Yasarla, Hong Cai, Jisoo Jeong, Yunxiao Shi, Risheek Garrepalli, Fatih Porikli

要約
我々は、単眼動画深度推定に向けた新しいメモリとアテンションフレームワーク「MAMo」を提案する。MAMoは、任意の単一画像深度推定ネットワークを動画深度推定モデルに拡張・改善することができ、時間的情報を活用してより高精度な深度推定を可能にする。MAMoでは、動画を順次処理するモデルにメモリを追加し、過去の時間ステップにおける学習された視覚的特徴と変位トークンを保持することで、現在のフレームにおける深度推定を支援する。このメモリにより、深度ネットワークは現在のフレームの推定において過去の関連特徴を参照できる。さらに、我々は過去と現在の視覚情報の両方に対応するトークンを維持するように最適化された、連続的に更新される新しいメモリ管理スキームを導入する。メモリ特徴の処理にはアテンションベースのアプローチを採用し、まず自己アテンションモジュールを用いて得られた視覚的および変位メモリトークン間の空間時間的関係を学習する。さらに、自己アテンションの出力特徴を、現在の視覚特徴とクロスアテンションによって統合する。統合されたクロスアテンション特徴は最終的にデコーダに渡され、現在のフレームにおける深度を予測する。KITTI、NYU-Depth V2、DDADを含む複数のベンチマーク上で実施した広範な実験により、MAMoが単眼深度推定ネットワークを一貫して改善し、新たな最先端(SOTA)の精度を達成することを示した。特に、従来のSOTAであるコストボリュームベースの動画深度推定モデルと比較して、MAMoはより高い精度を実現しつつ、低レイテンシを達成している。