Génération et exploitation d'estimations de profondeur monoculaires probabilistes

Au-delà de l'estimation de profondeur à partir d'une seule image, l'indice monocular est utile dans une gamme plus large d'applications et de contextes d'inférence de profondeur --- par exemple, lorsque l'on peut tirer parti d'autres indices de profondeur disponibles pour améliorer la précision. Actuellement, différentes applications, avec des tâches d'inférence différentes et des combinaisons variées d'indices de profondeur, sont résolues par des réseaux spécialisés différents --- formés séparément pour chaque application. À la place, nous proposons un modèle monocular polyvalent et indépendant de la tâche qui génère une distribution de probabilité sur la profondeur de la scène à partir d'une image couleur en entrée, comme une approximation échantillonnée des sorties d'un VAE conditionnel par patch. Nous démontrons que cette sortie distributionnelle peut être utilisée pour permettre une variété de tâches d'inférence dans différents contextes, sans avoir besoin de reformer le modèle pour chaque application. Sur un ensemble diversifié d'applications (complétion de profondeur, estimation guidée par l'utilisateur, etc.), notre modèle commun produit des résultats avec une haute précision --- comparable ou supérieure à celle des méthodes les plus avancées actuellement dépendantes des réseaux spécifiques à chaque application.