Amélioration de l'estimation de profondeur mono-vue auto-supervisée par masquage d'occlusion
Les modèles d'estimation de profondeur à partir d'une seule vue peuvent être formés à partir de séquences vidéo en utilisant une approche auto-supervisée de bout en bout, avec la synthèse de vues comme signal de supervision. Cela est réalisé grâce à un cadre qui prédit la profondeur et le mouvement de la caméra, avec une fonction de perte basée sur la reconstruction d'un cadre vidéo cible à partir de cadres adjacents dans le temps. Dans ce contexte, l'occlusion concerne les parties d'une scène qui peuvent être observées dans le cadre cible mais pas dans un cadre utilisé pour la reconstruction d'image. Comme la reconstruction d'image repose sur l'échantillonnage à partir du cadre adjacent, et que par définition les zones occultées ne peuvent pas être échantillonnées, les zones occultées reconstruites corrompent le signal de supervision.Dans des travaux antérieurs (arXiv:1806.01260), l'occlusion est gérée en fonction de l'erreur de reconstruction ; pour chaque position de pixel, seule la reconstruction avec l'erreur la plus faible est incluse dans la fonction de perte. L'étude actuelle vise à déterminer si des améliorations des performances des modèles d'estimation de profondeur peuvent être obtenues pendant l'entraînement en ignorant uniquement les régions affectées par l'occlusion.Dans cette étude, nous introduisons le masque d'occlusion, un masque qui peut être utilisé pendant l'entraînement pour ignorer spécifiquement les régions qui ne peuvent pas être reconstruites en raison des occultations. Le masque d'occlusion est basé entièrement sur les informations de profondeur prédites. Nous présentons deux nouvelles formulations de fonctions de perte qui intègrent le masque d'occlusion. La méthode et l'implémentation décrites dans arXiv:1806.01260 servent de base à nos modifications ainsi que de référence dans nos expériences.Nous démontrons que (i) l'intégration du masque d'occlusion dans la fonction de perte améliore les performances des modèles prédictifs de profondeur mono-image sur le benchmark KITTI. (ii) Les fonctions de perte qui sélectionnent parmi les reconstructions en fonction des erreurs sont capables d'ignorer certaines des erreurs de reprojection causées par le mouvement des objets.