VGGT: Ein Allgemeines 3D-Vision-Modell
1. Einführung in das Tutorial

VGGT ist ein Feedforward-Neuralnetzwerk, das vom Meta-AI-Team und der Visual Geometry Group (VGG) der Universität Oxford am 28. März 2025 veröffentlicht wurde. Es kann alle wichtigen 3D-Eigenschaften einer Szene aus einer, wenigen oder Hunderten von Ansichten in wenigen Sekunden direkt ableiten, einschließlich externer und interner Kameraparameter, Punktkarten, Tiefenkarten und 3D-Punkttrajektorien. Es ist zudem einfach und effizient und rekonstruiert die Szene in weniger als einer Sekunde. Damit übertrifft es sogar alternative Methoden, die eine Nachbearbeitung mit Techniken zur visuellen Geometrieoptimierung erfordern. Die relevanten Ergebnisse der Studie lauten:VGGT: Visuelle Geometrie geerdeter Transformator“, wurde von CVPR 2025 angenommen und gewann den CVPR 2025 Best Paper Award.
Dieses Tutorial verwendet Ressourcen für eine einzelne RTX 4090-Karte.
2. Projektbeispiele

3. Bedienungsschritte
1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden
Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.
Anwendung

Parameterbeschreibung:
- Wählen Sie einen Vorhersagemodus:
- Tiefenkarte und Kamerazweig: Rekonstruktion mithilfe von Tiefenkarte und Kameraposezweigen.
- Pointmap-Zweig: Verwenden Sie den Punktwolkenzweig direkt zur Rekonstruktion.
- Konfidenzschwelle: Konfidenzschwelle, die verwendet wird, um Ergebnisse mit höherer Konfidenz in der Modellausgabe herauszufiltern.
- Punkte aus Frame anzeigen: Ob die aus dem ausgewählten Frame extrahierten Punkte angezeigt werden sollen.
- Kamera anzeigen: Ob die Kameraposition angezeigt werden soll.
- Himmel filtern: Ob Himmelspunkte gefiltert werden sollen.
- Schwarzen Hintergrund filtern: Ob Punkte mit schwarzem Hintergrund gefiltert werden sollen.
- Weißen Hintergrund filtern: Ob Punkte mit weißem Hintergrund gefiltert werden sollen.
4. Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen
Die Zitationsinformationen für dieses Projekt lauten wie folgt:
@inproceedings{wang2025vggt,
title={VGGT: Visual Geometry Grounded Transformer},
author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
year={2025}
}