HyperAIHyperAI
il y a 3 mois

Vers une estimation hiérarchique auto-supervisée de la profondeur absolue monoculaire pour les applications de conduite autonome

Feng Xue, Guirong Zhuo, Ziyuan Huang, Wufei Fu, Zhuoyue Wu, Marcelo H. Ang Jr
Vers une estimation hiérarchique auto-supervisée de la profondeur absolue monoculaire pour les applications de conduite autonome
Résumé

Ces dernières années, les méthodes auto-supervisées pour l’estimation de profondeur à partir d’une seule image se sont rapidement établies comme une branche importante de la tâche d’estimation de profondeur, en particulier pour les applications de conduite autonome. Malgré la précision globale élevée atteinte, les méthodes actuelles souffrent encore de deux problèmes majeurs : a) une estimation de profondeur au niveau des objets imprecise, et b) un facteur d’échelle incertain. Le premier problème peut entraîner des artefacts tels que des copies de textures ou des frontières d’objets inexactes, tandis que le second impose aux méthodes actuelles de disposer d’un capteur supplémentaire, comme un LiDAR, pour fournir une vérité terrain en profondeur, ou d’une caméra stéréo comme entrée supplémentaire durant l’apprentissage, ce qui complique considérablement leur mise en œuvre. Dans ce travail, nous proposons de résoudre conjointement ces deux problèmes en introduisant DNet. Nos contributions sont doubles : a) nous introduisons une nouvelle couche de prédiction densement connectée (DCP) afin d’améliorer l’estimation de profondeur au niveau des objets ; b) spécifiquement dans les scénarios de conduite autonome, nous proposons des contraintes géométriques denses (DGC), permettant de récupérer un facteur d’échelle précis sans coût supplémentaire pour les véhicules autonomes. Des expériences étendues ont été menées, démontrant l’efficacité respective des deux composants : la couche DCP améliore la distinction des frontières d’objets dans la carte de profondeur et rend la profondeur plus continue au niveau des objets. Il est également montré que les performances obtenues avec DGC pour la récupération de l’échelle sont comparables à celles obtenues avec des informations de vérité terrain, à condition que la hauteur de la caméra soit connue et que les points au sol représentent plus de 1,03 % des pixels. Le code est disponible à l’adresse suivante : https://github.com/TJ-IPLab/DNet.