18日前
VGGT: Visual Geometry Grounded Transformer VGGT: ビジュアル・ジオメトリ・グラウンデッド・トランスフォーマー
Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

要約
VGGT(Very Generic Geometry Tracker)について紹介します。これは、フィードフォワード型ニューラルネットワークであり、1つの視点、数個の視点、または数百の視点からシーンのすべての主要な3次元属性を直接推論します。これらの属性には、カメラパラメータ、ポイントマップ、深度マップ、および3次元ポイントトラックが含まれます。このアプローチは、従来のモデルが単一のタスクに制限され、専門化されていた3次元コンピュータビジョン分野における一歩前進です。また、単純で効率的であり、1秒未満で画像を再構築し、ビジュアルジオメトリ最適化技術を用いた後処理が必要な代替手法よりも優れた性能を示しています。 ネットワークは複数の3次元タスクにおいて最先端の結果を達成しており、カメラパラメータ推定、マルチビュー深度推定、密集したポイントクラウド再構築、および3次元ポイント追跡が含まれます。さらに、事前学習されたVGGTを使用して特徴量バックボーンとして利用することで、非剛体ポイント追跡やフィードフォワード型新規視点合成などの下流タスクが大幅に向上することも示しています。コードとモデルは公開されており、以下のhttps URLからアクセスできます。