Estimation non supervisée de la profondeur monoculaire avec cohérence gauche-droite

Les méthodes basées sur l'apprentissage ont montré des résultats très prometteurs pour la tâche d'estimation de profondeur dans les images uniques. Cependant, la plupart des approches existantes traitent l'estimation de profondeur comme un problème de régression supervisée et, par conséquent, nécessitent de grandes quantités de données de profondeur véritables pour l'entraînement. L'enregistrement de données de profondeur de qualité dans une variété d'environnements est en soi un défi majeur. Dans cet article, nous innovons en allant au-delà des approches existantes, en remplaçant l'utilisation de données de profondeur explicites pendant l'entraînement par des séquences stéréoscopiques binoculaires plus faciles à obtenir.Nous proposons un nouvel objectif d'entraînement qui permet à notre réseau neuronal convolutif d'apprendre à effectuer l'estimation de profondeur à partir d'une seule image, malgré l'absence de données véritables de profondeur. En exploitant les contraintes géométriques épipolaires, nous générons des images de disparité en entraînant notre réseau avec une perte de reconstruction d'image. Nous montrons que la résolution du problème de reconstruction d'image seule conduit à des images de profondeur de mauvaise qualité. Pour surmonter ce problème, nous proposons une nouvelle perte d'entraînement qui impose une cohérence entre les disparités produites par rapport aux images gauche et droite, ce qui améliore les performances et la robustesse par rapport aux approches existantes.Notre méthode produit des résultats d'avant-garde pour l'estimation mono-oculaire de la profondeur sur le jeu de données KITTI, surpassant même certaines méthodes supervisées qui ont été entraînées avec des données véritables de profondeur.