De grand à petit : Guidance planaire locale multi-échelle pour l'estimation de profondeur monoculaire

L'estimation d'une profondeur précise à partir d'une seule image est un défi car il s'agit d'un problème mal posé : une infinité de scènes 3D peuvent être projetées sur la même scène 2D. Cependant, des travaux récents basés sur les réseaux neuronaux convolutifs profonds montrent des progrès considérables avec des résultats plausibles. Les réseaux neuronaux convolutifs sont généralement composés de deux parties : un encodeur pour l'extraction de caractéristiques denses et un décodeur pour prédire la profondeur souhaitée. Dans les schémas encodeur-décodeur, les couches de convolution stridées et de regroupement spatial répétées réduisent la résolution spatiale des sorties intermédiaires, et plusieurs techniques telles que les connexions résiduelles ou les réseaux déconvolutifs multicouches sont adoptées pour restaurer la résolution initiale afin de permettre une prédiction dense efficace. Dans cet article, pour guider plus efficacement les caractéristiques encodées denses vers la prédiction de profondeur souhaitée, nous proposons une architecture de réseau qui utilise des couches de guidage planaire local innovantes situées à plusieurs stades de la phase de décodage. Nous montrons que la méthode proposée surpasse les travaux de pointe actuels avec une marge significative lors d'évaluations sur des benchmarks difficiles. Nous fournissons également les résultats d'une étude par élimination progressive (ablation study) pour valider l'efficacité de la méthode proposée.