D-Net : Un réseau profond généralisé et optimisé pour l'estimation de la profondeur à partir d'une seule image
L’estimation de profondeur constitue un élément essentiel des systèmes de vision par ordinateur pour atteindre une compréhension 3D des scènes. Une estimation efficace et précise de la carte de profondeur présente de nombreuses applications, notamment dans les véhicules autonomes et les outils de réalité virtuelle. Ce papier présente un nouveau réseau neuronal profond, appelé D-Net, dédié à l’estimation de la profondeur à partir d’une seule image RGB. Le réseau proposé peut être entraîné de manière end-to-end, et sa structure peut être personnalisée afin de répondre à diverses contraintes en termes de taille du modèle, de vitesse et de précision de prédiction. Notre approche extrait des caractéristiques contextuelles fortes, à la fois globales et locales, à plusieurs résolutions, puis les transfère vers des résolutions élevées afin d’obtenir des cartes de profondeur plus claires. Pour le squelette d’encodage, D-Net peut exploiter de nombreux modèles de pointe, notamment EfficientNet, HRNet et Swin Transformer, afin de produire des cartes de profondeur denses. Le D-Net proposé est conçu pour présenter un nombre minimal de paramètres et une complexité computationnelle réduite. Des évaluations étendues sur les jeux de données de référence NYUv2 et KITTI montrent que notre modèle atteint une haute précision sur plusieurs architectures de base, et réalise des performances de pointe sur les deux benchmarks lorsqu’il est combiné avec Swin Transformer et HRNet.