BiFuse : Estimation de la profondeur 360 monoculaire par fusion de bi-projection

L’estimation de profondeur à partir d’une image 360 monoscopique est un problème émergent qui gagne en popularité en raison de la disponibilité des caméras 360 grand public et de leur capacité à capter l’environnement entier. Alors que la norme de l’imagerie 360 évolue rapidement, nous proposons de prédire la carte de profondeur d’une image 360 monoscopique en imitant à la fois la vision périphérique et la vision foveale de l’œil humain. À cette fin, nous adoptons un réseau neuronal à deux branches exploitant deux projections courantes : la projection équirectangulaire et la projection en cube (cubemap). En effet, la projection équirectangulaire permet de couvrir un champ de vision complet, mais introduit des distorsions, tandis que la projection cubemap évite ces distorsions tout en introduisant des discontinuités aux frontières des faces du cube. Nous proposons donc un schéma de fusion bi-projection associé à des masques apprenables afin d’équilibrer les cartes de caractéristiques issues des deux projections. De plus, pour la projection cubemap, nous introduisons une procédure de remplissage sphérique qui atténue les discontinuités aux bords de chaque face. Nous appliquons notre méthode à quatre jeux de données de panoramas et démontrons des résultats favorables par rapport aux méthodes de pointe existantes.