GEDepth : Incorporation d'éléments fondamentaux pour l'estimation de profondeur monoculaire

L’estimation de la profondeur à partir d’une seule caméra est un problème mal posé, car une même image 2D peut être projetée à partir d’un nombre infini de scènes 3D. Bien que les algorithmes les plus performants dans ce domaine aient récemment obtenu des progrès significatifs, ils sont essentiellement conçus pour un ensemble spécifique d’observations picturales et de paramètres de caméra (c’est-à-dire les paramètres intrinsèques et extrinsèques), ce qui limite fortement leur capacité à s’adapter à des scénarios du monde réel. Pour relever ce défi, cette étude propose un nouveau module d’encodage du sol, permettant de découpler les paramètres de caméra des indices picturaux, et ainsi améliorer la généralisation. Étant donné les paramètres de caméra, le module proposé génère une profondeur du sol, qui est empilée avec l’image d’entrée et utilisée comme référence dans la prédiction finale de profondeur. Un mécanisme d’attention au sol est intégré au sein du module afin d’optimiser le mélange entre la profondeur du sol et la profondeur résiduelle. Notre approche d’encodage du sol est hautement flexible et légère, ce qui en fait un module plug-and-play facilement intégrable dans diverses architectures de réseau d’estimation de profondeur. Les expérimentations montrent que notre méthode atteint des résultats de pointe sur des benchmarks populaires, et, plus important encore, améliore de manière significative la généralisation sur une large gamme de tests trans-domaines.