VGGT: Visueller Geometrie-Grounding-Transformer

Wir stellen VGGT vor, ein feed-forward Neuronales Netzwerk, das alle wesentlichen 3D-Attribute einer Szene, einschließlich Kameraparameter, Punktkarten, Tiefenkarten und 3D-Punktsignale, aus einem, wenigen oder Hunderten ihrer Ansichten direkt ableitet. Dieser Ansatz stellt einen Fortschritt im Bereich der 3D-Bildverarbeitung dar, wo Modelle traditionell auf einzelne Aufgaben beschränkt und spezialisiert waren. Er ist zudem einfach und effizient, da er Bilder in weniger als einer Sekunde rekonstruiert und dabei immer noch Alternativen übertrifft, die eine Nachbearbeitung mit visuellen Geometrieoptimierungstechniken erfordern. Das Netzwerk erzielt Spitzenwerte in mehreren 3D-Aufgaben, darunter die Schätzung von Kameraparametern, die Tiefenschätzung bei mehreren Ansichten, die Rekonstruktion dichter Punktwolken und die Verfolgung von 3D-Punkten. Wir zeigen außerdem, dass die Verwendung eines vorgefertigten VGGT als Feature-Backbone signifikant die nachgeschalteten Aufgaben verbessert, wie etwa die Verfolgung nicht starrer Punkte und die feed-forward Synthese neuer Ansichten. Der Quellcode und die Modelle sind öffentlich unter dieser https-URL verfügbar.