HyperAIHyperAI
il y a 4 mois

Réseau de Pyramide Résiduel Conscient de la Structure pour l'Estimation de Profondeur Monoœilique

Xiaotian Chen; Xuejin Chen; Zheng-Jun Zha
Réseau de Pyramide Résiduel Conscient de la Structure pour l'Estimation de Profondeur Monoœilique
Résumé

L'estimation de profondeur monoculaire est une tâche essentielle pour la compréhension des scènes. La structure sous-jacente des objets et des éléments dans une scène complexe est cruciale pour la récupération de cartes de profondeur précises et visuellement agréables. La structure globale transmet les dispositions de la scène, tandis que la structure locale reflète les détails de forme. Les approches récemment développées basées sur les réseaux neuronaux convolutifs (CNN) améliorent considérablement les performances de l'estimation de profondeur. Cependant, peu d'entre elles prennent en compte les structures multi-échelles dans les scènes complexes. Dans cet article, nous proposons un réseau pyramidal résiduel sensible à la structure (SARPN) pour exploiter les structures multi-échelles afin d'obtenir une prédiction précise de la profondeur. Nous introduisons un décodeur pyramidal résiduel (RPD) qui exprime la structure globale de la scène aux niveaux supérieurs pour représenter les dispositions, et la structure locale aux niveaux inférieurs pour présenter les détails de forme. À chaque niveau, nous proposons des modules de raffinement résiduel (RRM) qui prédit des cartes résiduelles pour ajouter progressivement des structures plus fines sur la structure plus grossière prédite au niveau supérieur. Pour exploiter pleinement les caractéristiques d'image multi-échelles, un module d'fusion dense adaptative (ADFF), qui fusionne de manière adaptative les caractéristiques efficaces provenant de toutes les échelles pour inférer les structures de chaque échelle, est introduit. Les résultats expérimentaux sur le jeu de données NYU-Depth v2, connu pour sa difficulté, montrent que notre approche proposée atteint des performances d'avant-garde tant en évaluation qualitative qu'en évaluation quantitative. Le code est disponible à l'adresse suivante : https://github.com/Xt-Chen/SARPN.