16日前

Metric3Dv2:ゼロショットメトリック深度および表面法線推定に向けた汎用モノクロージェオメトリック基礎モデル

Mu Hu, Wei Yin, Chi Zhang, Zhipeng Cai, Xiaoxiao Long, Kaixuan Wang, Hao Chen, Gang Yu, Chunhua Shen, Shaojie Shen
Metric3Dv2:ゼロショットメトリック深度および表面法線推定に向けた汎用モノクロージェオメトリック基礎モデル
要約

我々は、単一画像からゼロショットでメトリック深度および表面法線を推定可能な幾何学的基礎モデル「Metric3D v2」を紹介する。この技術は、メトリックな3D再構成において極めて重要である。深度と法線は幾何学的に関連しており、互いに補完的な性質を持つが、それぞれに異なる課題を抱えている。最新の単眼深度推定手法は、アフィン不変な深度を学習することでゼロショット汎化を達成しているが、これでは現実世界のスケールを正確に復元することはできない。一方、最新の法線推定手法は、大規模なラベル付きデータの不足により、ゼロショット性能に限界がある。これらの課題に対処するため、本研究では深度推定と法線推定の両方に対する解決策を提案する。メトリック深度推定に関しては、ゼロショット単眼モデルの鍵が、さまざまなカメラモデルと大規模データによる学習においてメトリックの不確かさを解消することにあることを示した。そこで、標準化されたカメラ空間への変換モジュールを提案し、この不確かさ問題を明示的に取り扱えるようにした。このモジュールは既存の単眼モデルに容易に統合可能である。法線推定に関しては、メトリック深度から多様な知識を抽出するための深度-法線同時最適化モジュールを設計し、法線推定器が法線ラベルにとどまらず、より豊かな情報を学習できるようにした。これらのモジュールを搭載することで、数千種類のカメラモデル、異なるタイプのアノテーションを含む1600万枚以上の画像データを用いて、安定した学習が可能となり、未確認のカメラ設定を持つ実環境画像に対してもゼロショット汎化を実現した。本手法により、インターネット上でランダムに収集された画像からも正確なメトリック3D構造を復元することが可能となり、単一画像からの現実的なメトロロジー(測定)の実現に向けた道を開いた。プロジェクトページは以下の通り:https://JUGGHM.github.io/Metric3Dv2。

Metric3Dv2:ゼロショットメトリック深度および表面法線推定に向けた汎用モノクロージェオメトリック基礎モデル | 最新論文 | HyperAI超神経