Un réseau génératif adversaire conçu pour l'estimation de la profondeur monoculaire à haute résolution à partir d'images 2D HiRISE de Mars
En vision par ordinateur, la stéréoscopie permet la reconstruction tridimensionnelle d’une scène à partir de deux images 2D prises depuis deux points de vue légèrement différents, afin d’extraire les informations spatiales relatives à la profondeur de la scène sous la forme d’une carte de disparités. En stéréophotogrammétrie, la carte de disparités joue un rôle essentiel dans l’extraction du modèle numérique du terrain (MNT), permettant ainsi d’obtenir une cartographie spatiale 3D indispensable à une analyse approfondie des surfaces planétaires. Toutefois, le processus global de reconstruction effectué par l’algorithme de correspondance stéréo peut s’avérer long et générer de nombreuses artefacts. Associé à un manque de couverture stéréo adéquate, cela constitue un obstacle majeur à la cartographie 3D planétaire. Récemment, de nombreuses architectures d’apprentissage profond ont été proposées pour l’estimation de la profondeur à partir d’une seule vue (monoculaire), visant à prédire la troisième dimension à partir d’une seule image 2D. Ce faisant, elles offrent des avantages considérables grâce à la simplification du problème de reconstruction, entraînant une forte augmentation de l’intérêt pour les modèles profonds dans la génération d’images à haute résolution et l’estimation du MNT. Dans ce travail, nous combinons ces deux dernières approches en un seul modèle end-to-end et proposons une nouvelle solution basée sur un réseau génératif antagoniste (GAN) capable d’estimer le MNT à une résolution 4 fois supérieure à partir d’une seule image monoculaire, nommé SRDiNet (Super-Resolution Depth Image Network). Par ailleurs, nous introduisons un sous-réseau capable d’appliquer une étape de raffinement à l’aide d’images interpolées, afin d’améliorer davantage les détails fins du produit final. Nous démontrons l’efficacité de ces bénéfices à travers trois variantes distinctes de notre proposition : SRDiNet avec approche GAN, SRDiNet sans réseau antagoniste, et SRDiNet sans le sous-réseau d’apprentissage de raffinement combiné à l’approche GAN. Les résultats obtenus sur Oxia Planum (le site d’atterrissage du rover ExoMars Rosalind Franklin de l’Agence spatiale européenne en 2023) sont présentés, en appliquant le meilleur modèle sur l’ensemble des tuiles de Oxia Planum, et un produit 3D amélioré à une résolution 4 fois supérieure est publié.