Réseau de neurones récurrent pour l'apprentissage (non) supervisé de la vitesse visuelle et de la profondeur à partir de vidéos monoculaires

Les méthodes basées sur l’apprentissage profond pour l’estimation de profondeur à partir d’une seule vue ont récemment montré des résultats très prometteurs. Toutefois, ces approches ignorent l’un des éléments les plus importants pour la perception de la profondeur dans le système visuel humain : le mouvement. Nous proposons une méthode d’estimation d’une carte de profondeur dense et de l’odométrie basée sur l’apprentissage, qui exploite des réseaux de neurones récurrents (RNN) et est entraînée à l’aide de pertes de cohérence de flux avant-arrière et de reprojection d’images à plusieurs vues. Notre modèle peut être entraîné de manière supervisée, voire non supervisée. Conçu pour l’estimation de la profondeur et de l’odométrie visuelle à partir de vidéos où les cadres d’entrée sont corrélés temporellement, il se généralise également à l’estimation de profondeur à partir d’une seule vue. Notre méthode obtient des résultats supérieurs aux approches les plus avancées pour l’estimation de profondeur basée sur l’apprentissage, tant à vue unique qu’à plusieurs vues, sur le jeu de données KITTI dédié à la conduite.