HyperAIHyperAI
il y a 2 mois

RedNet : Réseau Encodeur-Décodeur Résiduel pour la Segmentation Sémantique RGB-D en Intérieur

Jindong Jiang; Lunan Zheng; Fei Luo; Zhijun Zhang
RedNet : Réseau Encodeur-Décodeur Résiduel pour la Segmentation Sémantique RGB-D en Intérieur
Résumé

La segmentation sémantique intérieure a toujours été une tâche difficile en vision par ordinateur. Dans cet article, nous proposons une architecture d'encodeur-décodeur résiduelle RGB-D, nommée RedNet, pour la segmentation sémantique RGB-D intérieure. Dans RedNet, le module résiduel est appliqué à la fois à l'encodeur et au décodeur comme bloc de base, et la connexion de saut (skip-connection) est utilisée pour contourner les caractéristiques spatiales entre l'encodeur et le décodeur. Afin d'intégrer les informations de profondeur de la scène, une structure de fusion est construite, qui effectue des inférences séparément sur l'image RGB et l'image de profondeur, puis fusionne leurs caractéristiques sur plusieurs couches. Pour optimiser efficacement les paramètres du réseau, nous proposons un schéma d'entraînement appelé « supervision pyramidale » (pyramid supervision), qui applique l'apprentissage supervisé sur différentes couches du décodeur afin de faire face au problème d'évanouissement des gradients (gradients vanishing). Les résultats expérimentaux montrent que le RedNet proposé (basé sur ResNet-50) atteint une précision mIoU de pointe de 47,8 % sur le jeu de données SUN RGB-D.

RedNet : Réseau Encodeur-Décodeur Résiduel pour la Segmentation Sémantique RGB-D en Intérieur | Articles de recherche | HyperAI