HyperAI

VGGT : Un Modèle De Vision 3D Général

1. Introduction au tutoriel

Construire

VGGT est un réseau neuronal à rétroaction directe, lancé par l'équipe Meta AI et le Visual Geometry Group (VGG) de l'Université d'Oxford le 28 mars 2025. Il permet d'inférer directement toutes les propriétés 3D clés d'une scène à partir d'une, de quelques ou de centaines de vues en quelques secondes, y compris les paramètres de caméra externes et internes, les cartes de points, les cartes de profondeur et les trajectoires de points 3D. Simple et efficace, il permet une reconstruction en moins d'une seconde, surpassant même les méthodes alternatives nécessitant un post-traitement par des techniques d'optimisation de la géométrie visuelle. Les résultats de l'article sont les suivants :VGGT : Transformateur de mise à la terre à géométrie visuelle", a été accepté par CVPR 2025 et a remporté le prix du meilleur article CVPR 2025.

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Comment utiliser 

Description des paramètres :

  • Sélectionnez un mode de prédiction :
    • Carte de profondeur et branche de caméra : reconstruction à l'aide de la carte de profondeur et des branches de pose de caméra.
    • Branche Pointmap : utilisez directement la branche nuage de points pour la reconstruction.
  • Seuil de confiance : seuil de confiance, utilisé pour filtrer les résultats avec une confiance plus élevée dans la sortie du modèle.
  • Afficher les points du cadre : indique s'il faut afficher les points extraits du cadre sélectionné.
  • Afficher la caméra : s'il faut afficher la position de la caméra.
  • Filtrer le ciel : s'il faut filtrer les points du ciel.
  • Filtrer l'arrière-plan noir : s'il faut filtrer les points avec un arrière-plan noir.
  • Filtrer l'arrière-plan blanc : s'il faut filtrer les points avec un arrière-plan blanc.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@inproceedings{wang2025vggt,
  title={VGGT: Visual Geometry Grounded Transformer},
  author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}