
要約
単眼深度推定は、同一の2次元画像が無限に存在する3次元シーンから投影され得るため、定義が不十分な問題である。この分野における最先端のアルゴリズムは著しい進歩を遂げているものの、本質的に絵画的観測とカメラパラメータ(すなわち、内部パラメータと外部パラメータ)の特定の組み合わせに依存しており、実世界のシナリオにおける汎用性に強い制限が生じている。この課題に対処するため、本論文ではカメラパラメータを絵画的特徴から分離する新たな「地面埋め込みモジュール」を提案する。このモジュールは、与えられたカメラパラメータに基づき、地面深度を生成し、入力画像とスタックして最終的な深度予測に参照する。さらに、モジュール内に地面深度と残差深度を最適に統合するための「地面アテンション」を設計した。本研究で提案する地面埋め込みモジュールは、高い柔軟性と軽量性を備えており、さまざまな深度推定ネットワークに容易に統合可能なプラグイン型モジュールとしての特性を持つ。実験の結果、本手法は一般的なベンチマークにおいて最先端の性能を達成するとともに、特に多様なドメイン間テストにおいて顕著な汎用性の向上を実現した。