Vers une estimation pratique de la profondeur en intérieur à partir d'une seule vue

La majorité des méthodes antérieures d’estimation de profondeur monoscopique sans guidance par profondeur réelle se concentrent sur des scénarios de conduite. Nous montrons que ces méthodes se généralisent mal à des scènes intérieures complexes non vues, où les objets sont encombrés et disposés de manière arbitraire dans le champ proche. Pour améliorer la robustesse, nous proposons une approche de distillation de structure afin d’apprendre des connaissances à partir d’un estimateur de profondeur relative off-the-shelf, qui produit une profondeur structurée mais indépendante des unités métriques. En combinant cette distillation de structure avec une branche qui apprend les métriques à partir de la cohérence gauche-droite, nous parvenons à obtenir une profondeur structurée et métrique pour des scènes intérieures génériques, tout en permettant des inférences en temps réel. Afin de faciliter l’apprentissage et l’évaluation, nous avons collecté SimSIN, un jeu de données issu de simulations comprenant des milliers d’environnements, ainsi que UniSIN, un jeu de données contenant environ 500 séquences de balayages réels d’environnements intérieurs génériques. Nous menons des expériences dans des configurations sim-to-real et real-to-real, et démontrons des améliorations, ainsi qu’une performance accrue dans des applications en aval utilisant nos cartes de profondeur. Ce travail présente une étude complète couvrant les aspects méthodes, données et applications.