13日前

Metric3D:単一画像からのゼロショットメトリック3D予測へ向けて

Wei Yin, Chi Zhang, Hao Chen, Zhipeng Cai, Gang Yu, Kaixuan Wang, Xiaozhi Chen, Chunhua Shen
Metric3D:単一画像からのゼロショットメトリック3D予測へ向けて
要約

画像から正確な3Dシーンを再構成することは、長年にわたり研究が続けられているビジョンタスクである。単一画像からの再構成問題は、固有の不適切定義(ill-posedness)を持つため、多くの既存の優れた手法は多視点幾何学に基づいている。現在の最先端(SOTA)の単眼メトリック深度推定手法は、単一のカメラモデルに限定されており、メトリックの曖昧性(metric ambiguity)のため、混合データでの訓練が不可能である。一方、大規模な混合データセットで学習されたSOTAの単眼手法は、アフィン不変深度(affine-invariant depths)を学習することでゼロショット一般化を達成しているが、現実世界のメトリックを正確に復元することはできない。本研究では、ゼロショット単眼メトリック深度モデルの鍵が、大規模データでの訓練と、さまざまなカメラモデルに起因するメトリックの曖昧性を解消することにあることを示す。そこで、標準カメラ空間変換モジュール(canonical camera space transformation module)を提案する。このモジュールは、曖昧性問題を明示的に扱い、既存の単眼モデルに簡単に統合可能である。本モジュールを搭載することで、数千種類のカメラモデルを含む800万枚以上の画像を用いた安定な訓練が可能となり、未見のカメラ設定を持つ実世界画像に対してもゼロショット一般化が実現される。実験により、7つのゼロショットベンチマークにおいてSOTA性能を達成した。特に、第2回単眼深度推定チャレンジ(2nd Monocular Depth Estimation Challenge)で優勝を果たした。本手法により、インターネット上でランダムに収集された画像からも正確なメトリック3D構造を復元可能となり、現実的な単一画像メトロロジー(single-image metrology)の実現に向けた道を開く。この技術は、下流タスクへの応用にも大きな利点をもたらす。たとえば、本モデルを単眼SLAM(Fig. 1)に組み込むことで、スケールドリフト問題を緩和し、高品質なメトリックスケールの高密度マッピングを実現できる。コードは、https://github.com/YvanYin/Metric3D にて公開されている。

Metric3D:単一画像からのゼロショットメトリック3D予測へ向けて | 最新論文 | HyperAI超神経