Optiques Profondes pour l'Estimation de Profondeur Monoœil et la Détection d'Objets 3D

L'estimation de profondeur et la détection d'objets en 3D sont essentielles pour la compréhension des scènes, mais restent difficiles à réaliser avec une seule image en raison de la perte d'informations tridimensionnelles lors de la capture d'image. Les modèles récents utilisant des réseaux neuronaux profonds ont amélioré les performances d'estimation de profondeur monulaire, mais il subsiste encore des difficultés pour prédire la profondeur absolue et généraliser au-delà d'un jeu de données standard. Dans cet article, nous introduisons le paradigme de l'optique profonde, c'est-à-dire la conception intégrée de l'optique et du traitement d'image, au problème d'estimation de profondeur monulaire, en utilisant le flou décalibré codé comme indice supplémentaire de profondeur à décoder par un réseau neuronal. Nous évaluons plusieurs stratégies de codage optique ainsi qu'un schéma d'optimisation intégrée pour l'estimation de profondeur sur trois jeux de données, dont NYU Depth v2 et KITTI. Nous constatons que la conception optimisée d'une lentille libre-forme donne les meilleurs résultats, mais que l'aberration chromatique d'une lentille simple offre également une amélioration significative des performances. Nous construisons un prototype physique et validons que les aberrations chromatiques améliorent l'estimation de profondeur sur des résultats réels. De plus, nous entraînons des réseaux de détection d'objets sur le jeu de données KITTI et montrons que la lentille optimisée pour l'estimation de profondeur entraîne également une meilleure performance en détection d'objets en 3D.