Apprentissage bout-en-bout pour la reconstruction conjointe de la profondeur et de l'image à partir de la rotation diffractée

L’estimation de la profondeur à partir d’une seule image reste un défi ouvert en raison de la nature mal posée du problème. Les méthodes basées sur l’apprentissage profond ont été largement étudiées et ont démontré une capacité à produire une précision acceptable en estimation de profondeur, bien que le manque de signaux de profondeur significatifs et robustes dans les images RGB monochromes limite sévèrement leurs performances. Les méthodes basées sur une ouverture codée utilisant des masques de phase et d’amplitude permettent d’encoder des signaux de profondeur forts dans des images 2D grâce aux fonctions de réponse impulsionnelle dépendantes de la profondeur (PSF, Point Spread Function), au prix d’une qualité d’image réduite. Dans cet article, nous proposons une nouvelle approche d’apprentissage end-to-end pour l’estimation de la profondeur à partir de la diffraction par rotation. Un masque de phase qui génère une fonction de réponse impulsionnelle en rotation (RPSF, Rotating Point Spread Function) en fonction du flou de mise au point est optimisé conjointement avec les poids d’un réseau neuronal d’estimation de profondeur. À cette fin, nous introduisons un modèle physique différentiable du masque d’ouverture et exploitons une simulation précise du pipeline d’acquisition d’image par caméra. Notre méthode nécessite un modèle bien moins complexe et une quantité réduite de données d’entraînement, tout en surpassant les méthodes existantes sur les benchmarks intérieurs pour l’estimation de profondeur monoscopique. En outre, nous abordons le problème de la dégradation d’image en intégrant un module de déflouage non aveugle et non uniforme, permettant de restaurer l’image nette au foyer complet à partir de son équivalent flou par RPSF.