Se concentrer sur le flou : combler le fossé entre domaines synthétiques et réels pour l'estimation de profondeur

Les méthodes d’estimation de profondeur basées sur les données peinent à généraliser en dehors des scènes utilisées pour l’entraînement en raison de la grande variabilité des scènes du monde réel. Ce problème peut être partiellement atténué en utilisant des images générées synthétiquement, mais la fermeture de l’écart entre les domaines synthétique et réel reste loin d’être triviale. Dans cet article, nous abordons cette difficulté en utilisant le flou de mise au point invariant par rapport au domaine comme signal de supervision direct. Nous exploitons les indices de flou de mise au point à l’aide d’un réseau neuronal convolutif invariant par permutation, qui incite le réseau à apprendre à partir des différences entre des images prises avec des points de mise au point différents. Notre réseau proposé utilise la carte de flou de mise au point comme signal de supervision intermédiaire. Grâce à cette approche, nous parvenons à entraîner notre modèle entièrement sur des données synthétiques, puis à l’appliquer directement à une large gamme d’images du monde réel. Nous évaluons notre modèle sur des jeux de données synthétiques et réels, démontrant ainsi des résultats prometteurs en termes de généralisation et des performances de prédiction de profondeur parmi les meilleures à ce jour.