VGGT : Visual Geometry Grounded Transformer

Nous présentons VGGT, un réseau neuronal à propagation avant qui infère directement tous les attributs 3D clés d'une scène, y compris les paramètres de la caméra, les cartes de points, les cartes de profondeur et les trajectoires de points 3D, à partir d'une, quelques-unes ou de nombreuses vues de cette scène. Cette approche constitue une avancée significative dans le domaine de la vision par ordinateur en 3D, où les modèles ont généralement été limités et spécialisés pour des tâches individuelles. Elle est également simple et efficace, permettant la reconstruction d'images en moins d'une seconde tout en surpassant les alternatives nécessitant un post-traitement avec des techniques d'optimisation géométrique visuelle. Le réseau obtient des résultats de pointe dans plusieurs tâches 3D, notamment l'estimation des paramètres de la caméra, l'estimation de profondeur multi-vues, la reconstruction de nuages de points denses et le suivi de points 3D. Nous montrons également que l'utilisation de VGGT pré-entraîné comme tronc commun de caractéristiques améliore considérablement les tâches en aval, telles que le suivi non rigide des points et la synthèse directe de nouvelles vues. Le code source et les modèles sont disponibles au public à cette adresse URL (https).