H-Net : Estimation non supervisée de la profondeur stéréo basée sur l'attention en exploitant la géométrie épipolaire

L’estimation de profondeur à partir d’une paire d’images stéréo est devenue l’une des applications les plus étudiées en vision par ordinateur, la plupart des méthodes précédentes s’appuyant sur des cadres d’apprentissage entièrement supervisés. Toutefois, en raison de la difficulté à obtenir des données de vérité terrain précises et évolutives, l’entraînement des méthodes entièrement supervisées s’avère complexe. À titre alternatif, les méthodes auto-supervisées gagnent en popularité afin de pallier ce défi. Dans cet article, nous introduisons H-Net, un cadre d’apprentissage profond pour l’estimation non supervisée de la profondeur stéréo, qui exploite la géométrie épipolaire afin de raffiner le recalage stéréo. Pour la première fois, une architecture autoencodeur siamois est utilisée pour l’estimation de profondeur, permettant d’extraire l’information mutuelle entre les images stéréo rectifiées. Pour imposer la contrainte épipolaire, un mécanisme d’attention épipolaire mutuelle a été conçu, qui accorde une plus grande importance aux correspondances de caractéristiques situées sur la même ligne épipolaire tout en apprenant l’information mutuelle entre la paire d’images d’entrée. Les correspondances stéréo sont par ailleurs améliorées en intégrant des informations sémantiques au mécanisme d’attention proposé. Plus précisément, l’algorithme de transport optimal est employé pour supprimer l’attention et éliminer les points aberrants dans les régions non visibles par les deux capteurs. Des expériences étendues sur les jeux de données KITTI2015 et Cityscapes montrent que notre méthode surpasse les approches de pointe en estimation non supervisée de profondeur stéréo, tout en réduisant l’écart par rapport aux méthodes entièrement supervisées.