Réseau de contour neural pour l'estimation de profondeur 360 monoculaire

Pour une image 360 monoscopique, l’estimation de profondeur est un défi car la distorsion augmente le long de la latitude. Afin de percevoir cette distorsion, les méthodes existantes se concentrent sur la conception d’architectures de réseaux profonds et complexes. Dans cet article, nous proposons une nouvelle perspective consistant à construire une représentation interprétable et creuse pour une image 360. Tenant compte de l’importance de la structure géométrique dans l’estimation de profondeur, nous utilisons la transformée contourlet pour capturer un indice géométrique explicite dans le domaine spectral, tout en l’intégrant à un indice implicite dans le domaine spatial. Plus précisément, nous proposons un réseau neuronal contourlet, composé d’une branche réseau de neurones convolutifs et d’une branche transformée contourlet. À l’étape d’encodage, nous concevons un module de fusion espace-spectre afin de combiner efficacement les deux types d’indices. À l’inverse de l’encodeur, nous utilisons la transformée contourlet inverse, avec des sous-bandes passe-bas apprises et des sous-bandes directionnelles passe-bande, pour reconstruire la profondeur au décodeur. Des expériences menées sur trois jeux de données populaires d’images panoramiques démontrent que l’approche proposée surpasse les méthodes de pointe en termes de performance et de convergence rapide. Le code est disponible à l’adresse suivante : https://github.com/zhijieshen-bjtu/Neural-Contourlet-Network-for-MODE.