Apprentissage non supervisé de profondeur cohérente à l’échelle à partir de vidéos

Nous proposons un estimateur de profondeur monocular SC-Depth, qui nécessite uniquement des vidéos non étiquetées pour l'entraînement et permet une prédiction cohérente à l’échelle au moment de l’inférence. Nos contributions principales sont les suivantes : (i) nous introduisons une perte de cohérence géométrique, qui pénalise les incohérences entre les profondeurs prédites à partir de vues adjacentes ; (ii) nous proposons un masque auto-découvert, capable de localiser automatiquement les objets en mouvement qui violent l’hypothèse fondamentale de scène statique et génèrent des signaux bruités pendant l’entraînement ; (iii) nous démontrons l’efficacité de chaque composant grâce à une étude ablation détaillée, et présentons des résultats de prédiction de profondeur de haute qualité sur les jeux de données KITTI et NYUv2. En outre, grâce à la capacité de prédiction cohérente à l’échelle, nous montrons que nos réseaux profonds entraînés en mode monocular peuvent être facilement intégrés dans le système ORB-SLAM2 pour une traçabilité plus robuste et précise. Le système hybride de SLAM pseudo-RGBD proposé obtient des résultats convaincants sur KITTI et se généralise efficacement au jeu de données KAIST sans entraînement supplémentaire. Enfin, nous fournissons plusieurs démonstrations pour une évaluation qualitative.