HyperAI超神経

VGGT: 一般的な3Dビジョンモデル

1. チュートリアルの概要

建てる

VGGTは、オックスフォード大学のMeta AIチームとVisual Geometry Group(VGG)によって2025年3月28日に発表されたフィードフォワードニューラルネットワークです。1つ、数個、または数百のビューから、シーンの主要な3Dプロパティすべてを数秒で直接推測できます。これには、外部および内部カメラパラメータ、ポイントマップ、深度マップ、3Dポイントの軌跡が含まれます。また、シンプルで効率的であり、1秒未満で再構成を完了し、ビジュアルジオメトリ最適化技術による後処理を必要とする他の手法を凌駕します。関連する論文の結果は次のとおりです。VGGT: ビジュアルジオメトリ接地変圧器」がCVPR 2025に採択され、CVPR 2025 Best Paper Awardを受賞しました。

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. ウェブページに入ると、モデルを使用できます

「Bad Gateway」と表示される場合、モデルが初期化中であることを意味します。モデルが大きいため、2〜3分ほど待ってページを更新してください。

利用手順 

パラメータの説明:

  • 予測モードを選択してください:
    • 深度マップとカメラ ブランチ: 深度マップとカメラ ポーズ ブランチを使用した再構築。
    • ポイントマップ ブランチ: 再構築にポイント クラウド ブランチを直接使用します。
  • 信頼度しきい値: モデル出力で信頼度の高い結果を除外するために使用される信頼度しきい値。
  • フレームからのポイントを表示: 選択したフレームから抽出されたポイントを表示するかどうか。
  • カメラを表示: カメラの位置を表示するかどうか。
  • 空のフィルター: 空のポイントをフィルターするかどうか。
  • 黒い背景をフィルタリング: 黒い背景でポイントをフィルタリングするかどうか。
  • 白い背景をフィルタリング: 白い背景のポイントをフィルタリングするかどうか。

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

このプロジェクトの引用情報は次のとおりです。

@inproceedings{wang2025vggt,
  title={VGGT: Visual Geometry Grounded Transformer},
  author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}