Exécuter ce Notebook Discuter sur Discord

Date

il y a 8 mois

Taille

967.01 MB

Licence

CC BY 4.0

GitHub

facebookresearch/vggt

URL du document

2503.11651

1. Introduction au tutoriel

VGGT, un réseau neuronal à propagation directe publié le 28 mars 2025 par l'équipe Meta AI et le Visual Geometry Group (VGG) de l'Université d'Oxford, est capable de déduire directement et en quelques secondes toutes les propriétés 3D clés d'une scène à partir d'une, de plusieurs ou même de centaines de vues. Ces propriétés incluent les paramètres externes et internes de la caméra, les cartes de points, les cartes de profondeur et les trajectoires des points 3D. Simple et efficace, il effectue la reconstruction en moins d'une seconde, surpassant même les méthodes alternatives qui nécessitent un post-traitement par optimisation géométrique visuelle. L'article correspondant est disponible ci-dessous : VGGT : Transformateur de mise à la terre à géométrie visuelleElle a été acceptée par CVPR 2025 et a remporté le prix du meilleur article de CVPR 2025.

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Comment utiliser

Description des paramètres :

Sélectionnez un mode de prédiction :
- Carte de profondeur et branche de caméra : reconstruction à l'aide de la carte de profondeur et des branches de pose de caméra.
- Branche Pointmap : utilisez directement la branche nuage de points pour la reconstruction.
Seuil de confiance : seuil de confiance, utilisé pour filtrer les résultats avec une confiance plus élevée dans la sortie du modèle.
Afficher les points du cadre : indique s'il faut afficher les points extraits du cadre sélectionné.
Afficher la caméra : s'il faut afficher la position de la caméra.
Filtrer le ciel : s'il faut filtrer les points du ciel.
Filtrer l'arrière-plan noir : s'il faut filtrer les points avec un arrière-plan noir.
Filtrer l'arrière-plan blanc : s'il faut filtrer les points avec un arrière-plan blanc.

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@inproceedings{wang2025vggt,
  title={VGGT: Visual Geometry Grounded Transformer},
  author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Associé Notebooks

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

il y a 2 mois

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

il y a 2 mois

Kiss3DGen : Un Framework De Génération d'actifs 3D Basé Sur Un Modèle De Diffusion d'images

il y a un mois

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

il y a 3 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 8 mois

Taille

967.01 MB

Licence

CC BY 4.0

GitHub

facebookresearch/vggt

URL du document

2503.11651

1. Introduction au tutoriel

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois que vous entrez sur la page Web, vous pouvez utiliser le modèle

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Comment utiliser

Description des paramètres :

Sélectionnez un mode de prédiction :
- Carte de profondeur et branche de caméra : reconstruction à l'aide de la carte de profondeur et des branches de pose de caméra.
- Branche Pointmap : utilisez directement la branche nuage de points pour la reconstruction.
Seuil de confiance : seuil de confiance, utilisé pour filtrer les résultats avec une confiance plus élevée dans la sortie du modèle.
Afficher les points du cadre : indique s'il faut afficher les points extraits du cadre sélectionné.
Afficher la caméra : s'il faut afficher la position de la caméra.
Filtrer le ciel : s'il faut filtrer les points du ciel.
Filtrer l'arrière-plan noir : s'il faut filtrer les points avec un arrière-plan noir.
Filtrer l'arrière-plan blanc : s'il faut filtrer les points avec un arrière-plan blanc.

4. Discussion

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@inproceedings{wang2025vggt,
  title={VGGT: Visual Geometry Grounded Transformer},
  author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}

Associé Notebooks

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

il y a 2 mois

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

il y a 3 mois

DiffVox : Modèle De Différenciation Sonore

il y a 3 mois

Ovis-Image : Modèle De Génération d'images De Haute Qualité

il y a 2 mois

SAM3 : Modèle De Segmentation Visuelle

il y a 2 mois

FLUX.2-dev : Modèle De Génération Et D’édition D’images

il y a 2 mois

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

il y a 2 mois

Kiss3DGen : Un Framework De Génération d'actifs 3D Basé Sur Un Modèle De Diffusion d'images

il y a un mois

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

il y a 3 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VGGT : Un Modèle De Vision 3D Général

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VGGT : Un Modèle De Vision 3D Général

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Associé Notebooks

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

DiffVox : Modèle De Différenciation Sonore

Ovis-Image : Modèle De Génération d'images De Haute Qualité

SAM3 : Modèle De Segmentation Visuelle

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

Kiss3DGen : Un Framework De Génération d'actifs 3D Basé Sur Un Modèle De Diffusion d'images

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VGGT : Un Modèle De Vision 3D Général

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Associé Notebooks

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

DiffVox : Modèle De Différenciation Sonore

Ovis-Image : Modèle De Génération d'images De Haute Qualité

SAM3 : Modèle De Segmentation Visuelle

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

Kiss3DGen : Un Framework De Génération d'actifs 3D Basé Sur Un Modèle De Diffusion d'images

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Notebooks

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

DiffVox : Modèle De Différenciation Sonore

Ovis-Image : Modèle De Génération d'images De Haute Qualité

SAM3 : Modèle De Segmentation Visuelle

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

Kiss3DGen : Un Framework De Génération d'actifs 3D Basé Sur Un Modèle De Diffusion d'images

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel

Associé Notebooks

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

HunyuanWorld-Mirror : Un Modèle De Génération De Monde 3D

DiffVox : Modèle De Différenciation Sonore

Ovis-Image : Modèle De Génération d'images De Haute Qualité

SAM3 : Modèle De Segmentation Visuelle

FLUX.2-dev : Modèle De Génération Et D’édition D’images

Z-Image-Turbo : Un Modèle De Génération d'images À 6 paramètres Haute Efficacité

Kiss3DGen : Un Framework De Génération d'actifs 3D Basé Sur Un Modèle De Diffusion d'images

Krea-realtime-video : Modèle De Génération Vidéo En Temps Réel