Un réseau à deux flux pour l’estimation de cartes de profondeur à haute résolution à partir d’images RGB uniques

L'estimation de la profondeur à partir d'une seule image RGB est un problème mal posé et intrinsèquement ambigu. Les méthodes actuelles d'apprentissage profond peuvent maintenant estimer des cartes de profondeur 2D précises, mais lorsqu'elles sont projetées en 3D, elles manquent de détails locaux et sont souvent fortement déformées. Nous proposons un réseau neuronal convolutif (CNN) à deux flux rapide à entraîner qui prédit la profondeur et les gradients de profondeur, qui sont ensuite fusionnés pour former une carte de profondeur précise et détaillée. Nous définissons également une nouvelle perte sur ensemble d'images ; en régularisant l'estimation entre un ensemble commun d'images, le réseau est moins sujet au surapprentissage et atteint une meilleure précision que les méthodes concurrentes. Des expériences menées sur le jeu de données NYU Depth v2 montrent que nos prédictions de profondeur sont compétitives avec l'état de l'art et conduisent à des projections 3D fidèles.