HyperAIHyperAI
il y a 15 jours

GLPanoDepth : Estimation de profondeur panoramique globale à locale

Jiayang Bai, Shuichang Lai, Haoyu Qin, Jie Guo, Yanwen Guo
GLPanoDepth : Estimation de profondeur panoramique globale à locale
Résumé

Dans cet article, nous proposons une méthode fondée sur l’apprentissage pour prédire des valeurs de profondeur denses d’une scène à partir d’une image omnidirectionnelle monoscopique. Une image omnidirectionnelle possède un champ de vision complet, offrant une description bien plus complète de la scène que les images perspectives. Toutefois, les réseaux fully-convolutionnels utilisés par la plupart des solutions actuelles échouent à capturer des contextes globaux riches à partir de la panorama. Pour résoudre ce problème ainsi que la distorsion inhérente à la projection équirectangulaire dans la panorama, nous introduisons Cubemap Vision Transformers (CViT), une nouvelle architecture basée sur les transformateurs, capable de modéliser des dépendances à longue portée et d’extraire des caractéristiques globales dépourvues de distorsion à partir de la panorama. Nous démontrons que les transformateurs vision cubiques possèdent un champ réceptif global à chaque étape et permettent des prédictions globalement cohérentes pour les signaux sphériques. Afin de préserver les caractéristiques locales importantes, nous concevons par ailleurs une branche basée sur la convolution dans notre pipeline (nommée GLPanoDepth) et fusionnons les caractéristiques globales issues des transformateurs vision cubiques à plusieurs échelles. Cette stratégie globale-vers-locale nous permet d’exploiter pleinement les caractéristiques globales et locales utiles présentes dans la panorama, atteignant ainsi des performances de pointe dans l’estimation de la profondeur panoramique.

GLPanoDepth : Estimation de profondeur panoramique globale à locale | Articles de recherche récents | HyperAI