Prédiction de Profondeur sans Capteurs : Exploitation de la Structure pour l'Apprentissage Non Supervisé à partir de Vidéos Monoculaires

L'apprentissage de la prédiction de la profondeur des scènes à partir d'entrées RGB est une tâche complexe, tant pour la navigation robotique en intérieur qu'en extérieur. Dans ce travail, nous abordons l'apprentissage non supervisé de la profondeur des scènes et du mouvement égocentrique du robot, où la supervision est fournie par des vidéos monoculaires, car les caméras sont le capteur le moins coûteux, le moins restrictif et le plus répandu dans le domaine de la robotique.Les travaux précédents sur l'apprentissage non supervisé de l'image à la profondeur ont établi des bases solides dans ce domaine. Nous proposons une nouvelle approche qui produit des résultats de meilleure qualité, est capable de modéliser les objets en mouvement et se montre efficace pour le transfert entre différents domaines de données, par exemple d'un environnement extérieur à un environnement intérieur. L'idée principale consiste à introduire une structure géométrique dans le processus d'apprentissage, en modélisant à la fois la scène et les objets individuels ; le mouvement égocentrique de la caméra et les mouvements des objets sont appris à partir de vidéos monoculaires comme entrée. De plus, une méthode de raffinement en ligne est introduite pour adapter l'apprentissage en temps réel aux domaines inconnus.L'approche proposée surpasses toutes les méthodes d'avant-garde actuelles, y compris celles qui gèrent le mouvement, par exemple via un flux appris (learned flow). Nos résultats sont comparables en qualité à ceux obtenus avec une supervision stéréoscopique et améliorent considérablement la prédiction de profondeur dans des scènes et des jeux de données contenant beaucoup de mouvements d'objets. Cette approche est pertinente sur le plan pratique car elle permet le transfert entre différents environnements, en transférant des modèles entraînés sur des données collectées pour la navigation robotique en milieu urbain vers des configurations de navigation intérieure. Le code associé à cet article peut être trouvé à l'adresse suivante : https://sites.google.com/view/struct2depth.