HyperAIHyperAI

Command Palette

Search for a command to run...

VGGT: Visueller Geometrie-Grounding-Transformer

Jianyuan Wang Minghao Chen Nikita Karaev Andrea Vedaldi Christian Rupprecht David Novotny

Zusammenfassung

Wir stellen VGGT vor, ein feed-forward Neuronales Netzwerk, das alle wesentlichen 3D-Attribute einer Szene, einschließlich Kameraparameter, Punktkarten, Tiefenkarten und 3D-Punktsignale, aus einem, wenigen oder Hunderten ihrer Ansichten direkt ableitet. Dieser Ansatz stellt einen Fortschritt im Bereich der 3D-Bildverarbeitung dar, wo Modelle traditionell auf einzelne Aufgaben beschränkt und spezialisiert waren. Er ist zudem einfach und effizient, da er Bilder in weniger als einer Sekunde rekonstruiert und dabei immer noch Alternativen übertrifft, die eine Nachbearbeitung mit visuellen Geometrieoptimierungstechniken erfordern. Das Netzwerk erzielt Spitzenwerte in mehreren 3D-Aufgaben, darunter die Schätzung von Kameraparametern, die Tiefenschätzung bei mehreren Ansichten, die Rekonstruktion dichter Punktwolken und die Verfolgung von 3D-Punkten. Wir zeigen außerdem, dass die Verwendung eines vorgefertigten VGGT als Feature-Backbone signifikant die nachgeschalteten Aufgaben verbessert, wie etwa die Verfolgung nicht starrer Punkte und die feed-forward Synthese neuer Ansichten. Der Quellcode und die Modelle sind öffentlich unter dieser https-URL verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp