Réexaminer l’estimation de profondeur à partir d’une seule image : Vers des cartes de plus haute résolution avec des contours d’objets précis

Ce travail aborde le problème de l'estimation de profondeur à partir d'une seule image. L'utilisation des réseaux neuronaux convolutifs (CNNs) a récemment permis des avancées significatives dans la recherche sur ce sujet. Cependant, la plupart des méthodes existantes souffrent d'une perte de résolution spatiale dans les cartes de profondeur estimées ; un symptôme typique est une reconstruction déformée et floue des contours des objets. Dans cet article, en vue d'une estimation plus précise avec une attention particulière portée aux cartes de profondeur à haute résolution spatiale, nous proposons deux améliorations aux approches actuelles. La première concerne la stratégie de fusion des caractéristiques extraites à différentes échelles, pour laquelle nous suggérons une architecture réseau améliorée composée de quatre modules : un encodeur, un décodeur, un module de fusion de caractéristiques multi-échelles et un module de raffinement. La seconde concerne les fonctions de perte utilisées pour mesurer les erreurs d'inférence lors de l'entraînement. Nous montrons que trois termes de perte, mesurant respectivement les erreurs en profondeur, en gradients et en normales de surface, contribuent à l'amélioration de la précision d'une manière complémentaire. Les résultats expérimentaux montrent que ces deux améliorations permettent d'atteindre une précision supérieure à celle des méthodes actuellement au point le plus avancé (state-of-the-art), notamment grâce à une reconstruction à plus haute résolution, par exemple pour les petits objets et les contours d'objets.