Apprentissage auto-supervisé pour l'estimation de profondeur et de normales de surface à partir d'une seule vue

Dans cette étude, nous présentons un cadre d'apprentissage auto-supervisé permettant de former simultanément deux réseaux de neurones convolutifs (CNNs) pour prédire la profondeur et les normales de surface à partir d'une seule image. Contrairement aux cadres existants qui représentent les scènes extérieures par des plans fronto-parallèles à une profondeur localement lisse, nous proposons de prédire la profondeur en tenant compte de l'orientation de la surface, en supposant que les scènes naturelles ont des normales de surface localement lisses. Nous démontrons qu'une simple cohérence entre la profondeur et les normales, utilisée comme contrainte souple sur les prédictions, est suffisante et efficace pour entraîner ces deux réseaux simultanément. Le réseau formé pour prédire les normales fournit des résultats d'état de l'art, tandis que le réseau formé pour prédire la profondeur, en s'appuyant sur une hypothèse plus réaliste de normales lisses, surpass largement les réseaux traditionnels d'apprentissage auto-supervisé pour la prédiction de la profondeur sur le benchmark KITTI. Vidéo démonstration : https://youtu.be/ZD-ZRsw7hdM