Estimation auto-supervisée du flux de scène monocular

L’estimation du scene flow connaît un intérêt croissant pour la perception de l’environnement 3D. L’estimation du scene flow monocular — c’est-à-dire la récupération de la structure 3D et du mouvement 3D à partir de deux images consécutives dans le temps — constitue un problème fortement mal posé, et des solutions pratiques restent encore rares à ce jour. Nous proposons une nouvelle méthode monocular pour l’estimation du scene flow, offrant une précision compétitive ainsi qu’une performance en temps réel. En adoptant une approche fondée sur un problème inverse, nous concevons un unique réseau neuronal convolutif (CNN) capable d’estimer simultanément la profondeur et le mouvement 3D à partir d’un volume de coût de flux optique classique. Nous utilisons un apprentissage auto-supervisé basé sur des fonctions de perte 3D et une modélisation du masquage (occlusion reasoning) afin d’exploiter efficacement des données non étiquetées. Nous validons nos choix architecturaux, notamment la fonction de perte proxy et la configuration d’augmentation. Notre modèle atteint une précision de pointe parmi les approches non supervisées ou auto-supervisées pour l’estimation du scene flow monocular, tout en obtenant des résultats compétitifs pour les sous-tâches de flux optique et d’estimation de profondeur monocular. Une fin-tuning semi-supervisé permet d’améliorer davantage la précision et produit des résultats prometteurs en temps réel.