HyperAIHyperAI

Command Palette

Search for a command to run...

VGGT: Ein Allgemeines 3D-Vision-Modell

1. Einführung in das Tutorial

Bauen

VGGT ist ein Feedforward-Neuralnetzwerk, das vom Meta-AI-Team und der Visual Geometry Group (VGG) der Universität Oxford am 28. März 2025 veröffentlicht wurde. Es kann alle wichtigen 3D-Eigenschaften einer Szene aus einer, wenigen oder Hunderten von Ansichten in wenigen Sekunden direkt ableiten, einschließlich externer und interner Kameraparameter, Punktkarten, Tiefenkarten und 3D-Punkttrajektorien. Es ist zudem einfach und effizient und rekonstruiert die Szene in weniger als einer Sekunde. Damit übertrifft es sogar alternative Methoden, die eine Nachbearbeitung mit Techniken zur visuellen Geometrieoptimierung erfordern. Die relevanten Ergebnisse der Studie lauten:VGGT: Visuelle Geometrie geerdeter Transformator“, wurde von CVPR 2025 angenommen und gewann den CVPR 2025 Best Paper Award.

Dieses Tutorial verwendet Ressourcen für eine einzelne RTX 4090-Karte.

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Sobald Sie die Webseite betreten, können Sie das Modell verwenden

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung 

Parameterbeschreibung:

  • Wählen Sie einen Vorhersagemodus:
    • Tiefenkarte und Kamerazweig: Rekonstruktion mithilfe von Tiefenkarte und Kameraposezweigen.
    • Pointmap-Zweig: Verwenden Sie den Punktwolkenzweig direkt zur Rekonstruktion.
  • Konfidenzschwelle: Konfidenzschwelle, die verwendet wird, um Ergebnisse mit höherer Konfidenz in der Modellausgabe herauszufiltern.
  • Punkte aus Frame anzeigen: Ob die aus dem ausgewählten Frame extrahierten Punkte angezeigt werden sollen.
  • Kamera anzeigen: Ob die Kameraposition angezeigt werden soll.
  • Himmel filtern: Ob Himmelspunkte gefiltert werden sollen.
  • Schwarzen Hintergrund filtern: Ob Punkte mit schwarzem Hintergrund gefiltert werden sollen.
  • Weißen Hintergrund filtern: Ob Punkte mit weißem Hintergrund gefiltert werden sollen.

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@inproceedings{wang2025vggt,
  title={VGGT: Visual Geometry Grounded Transformer},
  author={Wang, Jianyuan and Chen, Minghao and Karaev, Nikita and Vedaldi, Andrea and Rupprecht, Christian and Novotny, David},
  booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
  year={2025}
}

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VGGT: Ein Allgemeines 3D-Vision-Modell | Tutorials | HyperAI