Astuces de profondeur monoscopiques auto-supervisées

Les estimateurs monoculaires de profondeur peuvent être entraînés à l’aide de diverses formes d’autosurveillance issues de données stéréo binoculaires, afin de contourner la nécessité de scans laser de haute qualité ou d’autres données de vérité terrain. Toutefois, un inconvénient majeur réside dans le fait que les pertes de réprojection photométrique utilisées dans l’apprentissage autosurveillé présentent généralement plusieurs minima locaux. Ces solutions plausibles, mais erronées par rapport à la vérité terrain, limitent ce que peut apprendre un réseau de régression, conduisant à des cartes de profondeur de qualité médiocre. Un exemple frappant concerne les discontinuités de profondeur autour des structures fines, souvent mal estimées par les méthodes actuelles de pointe.Dans ce travail, nous étudions le problème des réprojections ambigües dans la prédiction de profondeur à partir d’une autosurveillance basée sur la stéréo, et introduisons une nouvelle méthode appelée Depth Hints (indices de profondeur) pour atténuer leurs effets. Les Depth Hints sont des suggestions complémentaires de profondeur obtenues à partir d’algorithmes stéréo simples et disponibles commercialement. Ces indices enrichissent une fonction de perte photométrique existante et guident le réseau pour qu’il apprenne des poids améliorés. Ils ne nécessitent aucune donnée supplémentaire et ne sont supposés exacts que ponctuellement. Nous démontrons que l’utilisation de nos Depth Hints apporte une amélioration significative lors de l’entraînement de plusieurs modèles leaders d’autosurveillance à partir de stéréo, et non seulement de notre propre modèle. En combinant ces indices avec d’autres bonnes pratiques, nous parvenons à des résultats de prédiction de profondeur de pointe sur le benchmark KITTI.