HyperAIHyperAI
il y a 16 jours

Metric3Dv2 : un modèle fondamental géométrique monocular polyvalent pour l'estimation zéro-shot de la profondeur métrique et des normales de surface

Mu Hu, Wei Yin, Chi Zhang, Zhipeng Cai, Xiaoxiao Long, Kaixuan Wang, Hao Chen, Gang Yu, Chunhua Shen, Shaojie Shen
Metric3Dv2 : un modèle fondamental géométrique monocular polyvalent pour l'estimation zéro-shot de la profondeur métrique et des normales de surface
Résumé

Nous introduisons Metric3D v2, un modèle fondamental géométrique pour l’estimation zéro-shot de la profondeur métrique et des normales de surface à partir d’une seule image, une capacité essentielle pour la reconstruction 3D métrique. Bien que la profondeur et la normale soient géométriquement liées et hautement complémentaires, elles posent des défis distincts. Les méthodes monoculaires d’avant-garde atteignent une généralisation zéro-shot en apprenant des profondeurs invariantes par affinité, mais celles-ci ne permettent pas de récupérer des métriques du monde réel. Par ailleurs, les méthodes d’avant-garde pour l’estimation des normales présentent des performances limitées en zéro-shot en raison du manque de données étiquetées à grande échelle. Pour surmonter ces limitations, nous proposons des solutions pour l’estimation de la profondeur métrique et celle des normales de surface. Pour l’estimation de la profondeur métrique, nous démontrons que la clé d’un modèle zéro-shot à vue unique réside dans la résolution de l’ambiguïté métrique provenant de divers modèles de caméra et de l’entraînement sur de grandes quantités de données. Nous proposons un module de transformation dans un espace canonique de caméra, qui traite explicitement ce problème d’ambiguïté et peut être facilement intégré aux modèles monoculaires existants. Pour l’estimation des normales de surface, nous introduisons un module d’optimisation conjointe profondeur-normale afin de tirer parti des connaissances provenant de diverses sources de données métriques, permettant aux estimateurs de normales d’apprendre au-delà des seules étiquettes de normales. Grâce à ces modules, nos modèles profondeur-normale peuvent être entraînés de manière stable sur plus de 16 millions d’images provenant de milliers de modèles de caméra avec des annotations de types variés, conduisant à une généralisation zéro-shot sur des images du monde réel présentant des configurations de caméra inconnues. Notre méthode permet ainsi une récupération précise de structures 3D métriques à partir d’images internet aléatoirement collectées, ouvrant la voie à une métrologie unique à partir d’une seule image plausible. La page de projet est disponible à l’adresse suivante : https://JUGGHM.github.io/Metric3Dv2.

Metric3Dv2 : un modèle fondamental géométrique monocular polyvalent pour l'estimation zéro-shot de la profondeur métrique et des normales de surface | Articles de recherche récents | HyperAI