Metric3D : Vers une Prédiction Métrique 3D Zéro-shot à Partir d'une Seule Image

La reconstruction de scènes 3D précises à partir d’images constitue une tâche fondamentale en vision par ordinateur. En raison de la mal-posée du problème de reconstruction à partir d’une seule vue, la plupart des méthodes établies reposent sur la géométrie multi-vues. Les méthodes de pointe (SOTA) pour l’estimation monocabulaire de profondeur métrique ne peuvent traiter qu’un seul modèle de caméra et sont incapables de s’entraîner sur des données mixtes en raison de l’ambiguïté métrique. Par ailleurs, les méthodes monocabulaires de pointe entraînées sur de grands jeux de données mixtes parviennent à une généralisation zéro-shot en apprenant des profondeurs invariantes par affinité, mais elles ne permettent pas de récupérer les métriques du monde réel. Dans ce travail, nous montrons que la clé d’un modèle de profondeur métrique monocabulaire zéro-shot réside dans la combinaison d’un entraînement à grande échelle sur des données variées et la résolution de l’ambiguïté métrique provenant de différents modèles de caméra. Nous proposons un module de transformation vers un espace canonique de caméra, qui traite explicitement les problèmes d’ambiguïté et peut être facilement intégré dans les modèles monocabulaires existants. Grâce à ce module, les modèles monocabulaires peuvent être entraînés de manière stable sur plus de 8 millions d’images provenant de milliers de modèles de caméra, permettant ainsi une généralisation zéro-shot sur des images prises dans des conditions réelles inconnues. Des expériences montrent que notre méthode atteint les performances de pointe sur 7 benchmarks zéro-shot. Notamment, notre approche a remporté le championnat du 2e Concours de Estimation de Profondeur Monocabulaire. Notre méthode permet la récupération précise de structures 3D métriques à partir d’images aléatoirement collectées sur Internet, ouvrant la voie à une métrologie réaliste à partir d’une seule image. Les bénéfices potentiels s’étendent aux tâches en aval, qui peuvent être considérablement améliorées simplement en intégrant notre modèle. Par exemple, notre modèle atténue efficacement le problème de dérive d’échelle du monocular-SLAM (Fig. 1), conduisant à une cartographie dense à échelle métrique de haute qualité. Le code est disponible à l’adresse suivante : https://github.com/YvanYin/Metric3D.