HyperAIHyperAI

Command Palette

Search for a command to run...

VGGT : Un Modèle De Vision 3D Général

Date

il y a 7 mois

Size

967.01 MB

License

CC BY 4.0

Paper URL

2503.11651

1. Introduction au tutoriel

Construire

VGGT, un réseau neuronal à propagation directe publié le 28 mars 2025 par l'équipe Meta AI et le Visual Geometry Group (VGG) de l'Université d'Oxford, est capable de déduire directement et en quelques secondes toutes les propriétés 3D clés d'une scène à partir d'une, de plusieurs ou même de centaines de vues. Ces propriétés incluent les paramètres externes et internes de la caméra, les cartes de points, les cartes de profondeur et les trajectoires des points 3D. Simple et efficace, il effectue la reconstruction en moins d'une seconde, surpassant même les méthodes alternatives qui nécessitent un post-traitement par optimisation géométrique visuelle. L'article correspondant est disponible ci-dessous : VGGT : Transformateur de mise à la terre à géométrie visuelleElle a été acceptée par CVPR 2025 et a remporté le prix du meilleur article de CVPR 2025.

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Comment utiliser 

Description des paramètres :

  • Sélectionnez un mode de prédiction :
    • Carte de profondeur et branche de caméra : reconstruction à l'aide de la carte de profondeur et des branches de pose de caméra.
    • Branche Pointmap : utilisez directement la branche nuage de points pour la reconstruction.
  • Seuil de confiance : seuil de confiance, utilisé pour filtrer les résultats avec une confiance plus élevée dans la sortie du modèle.
  • Afficher les points du cadre : indique s'il faut afficher les points extraits du cadre sélectionné.
  • Afficher la caméra : s'il faut afficher la position de la caméra.
  • Filtrer le ciel : s'il faut filtrer les points du ciel.
  • Filtrer l'arrière-plan noir : s'il faut filtrer les points avec un arrière-plan noir.
  • Filtrer l'arrière-plan blanc : s'il faut filtrer les points avec un arrière-plan blanc.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@inproceedings{wang2025vggt,
  title={VGGT: Visual Geometry Grounded Transformer},
  author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VGGT : Un Modèle De Vision 3D Général | Notebooks | HyperAI