11日前

UniDepth:ユニバーサルな単眼メトリック深度推定

Luigi Piccinelli, Yung-Hsu Yang, Christos Sakaridis, Mattia Segu, Siyuan Li, Luc Van Gool, Fisher Yu
UniDepth:ユニバーサルな単眼メトリック深度推定
要約

正確な単眼メトリック深度推定(MMDE)は、3次元認識およびモデリングにおける下流タスクを解決する上で極めて重要である。しかし、近年のMMDE手法が達成する高い精度は、訓練時に用いられたドメインに限定されている。わずかなドメインギャップが存在する状況下でも、これらの手法は未観測ドメインへの一般化に失敗し、実用性に大きな制約を受ける。本研究では、単一の画像から複数のドメインにわたってメトリック3次元シーンを再構成可能な新規モデルUniDepthを提案する。従来のMMDE手法とは異なり、UniDepthは推論時に追加情報なしに入力画像から直接メトリック3次元点を予測する。これにより、普遍的かつ柔軟なMMDEソリューションの実現を目指している。特に、UniDepthは密なカメラ表現を予測する自己プロンプト可能カメラモジュールを導入し、深度特徴を条件づける。また、本モデルはカメラと深度の表現を分離する疑似球面出力表現を採用している。さらに、カメラプロンプトによる深度特徴の幾何学的不変性を促進する幾何学的不変性損失を提案する。10のデータセットにおけるゼロショット評価において、UniDepthは、テストドメインに直接訓練された手法と比較しても一貫して優れた性能を示した。コードおよびモデルは以下のURLで公開されている:https://github.com/lpiccinelli-eth/unidepth