Sur les techniques d'apprentissage profond pour améliorer l'estimation de profondeur monoculaire dans la navigation autonome

L'inférence de la profondeur des images est un problème inverse fondamental dans le domaine de la Vision par Ordinateur, car l'information de profondeur est obtenue à partir d'images 2D, qui peuvent être générées à partir d'une infinité de possibilités de scènes réelles observées. Grâce aux progrès des Réseaux Neuronaux Convolutifs (CNNs) pour explorer les caractéristiques structurelles et spatiales des images, l'Estimation de Profondeur à Partir d'une Seule Image (SIDE) est souvent mise en avant dans les domaines de l'innovation scientifique et technologique, car ce concept offre des avantages liés à son faible coût d'implémentation et sa robustesse face aux conditions environnementales. Dans le contexte des véhicules autonomes, les CNNs de pointe optimisent la tâche SIDE en produisant des cartes de profondeur de haute qualité, essentielles lors du processus de navigation autonome dans différents lieux. Cependant, ces réseaux sont généralement supervisés par des données de profondeur éparse et bruyante issues des balayages laser LiDAR (Light Detection and Ranging), et sont réalisés à un coût computationnel élevé, nécessitant des Unités de Traitement Graphique (GPUs) haute performance. Par conséquent, nous proposons une nouvelle architecture CNN supervisée légère et rapide combinée avec des modèles d'extraction de caractéristiques innovants conçus pour la navigation autonome en milieu réel. Nous introduisons également un module efficace pour les normales de surface, associé à une fonction perte géométrique simple en 2.5D, afin de résoudre les problèmes SIDE. Nous innovons également en intégrant plusieurs techniques d'Apprentissage Profond, telles que l'utilisation d'algorithmes de densification et d'informations sémantiques supplémentaires, ainsi que des normales de surface et la profondeur pour former notre cadre. La méthode présentée dans cette étude se concentre sur les applications robotiques dans les environnements intérieurs et extérieurs, et ses résultats sont évalués sur les jeux de données NYU Depth V2 et KITTI Depth compétitifs et publiquement disponibles.