Réseau contextuel adaptable guidé par l'information spatiale pour une segmentation sémantique RGB-D efficace

La segmentation sémantique RGB-D efficace a suscité un intérêt croissant dans le domaine des robots mobiles, où elle joue un rôle essentiel dans l’analyse et la reconnaissance des informations environnementales. Selon des études antérieures, les données de profondeur peuvent fournir des relations géométriques pertinentes pour les objets et les scènes, mais les données réelles de profondeur sont généralement affectées par du bruit. Afin d’éviter des effets néfastes sur la précision de segmentation et la complexité computationnelle, il est nécessaire de concevoir un cadre efficace permettant d’exploiter les corrélations entre modalités et les indices complémentaires. Dans cet article, nous proposons un réseau encodeur-décodeur léger et efficace, réduisant le nombre de paramètres computationnels tout en garantissant la robustesse de l’algorithme. En combinant des modules d’attention fondés sur la fusion canal et spatiale, notre architecture capte efficacement des caractéristiques multi-niveaux en RGB-D. Un module de contexte d’affinité locale guidé globalement est introduit pour extraire des informations contextuelles de haut niveau suffisantes. Le décodeur utilise une unité résiduelle légère qui intègre à la fois les informations à courte et à longue distance, tout en minimisant les calculs redondants. Les résultats expérimentaux sur les jeux de données NYUv2, SUN RGB-D et Cityscapes montrent que notre méthode atteint un meilleur compromis entre précision de segmentation, temps d’inférence et nombre de paramètres par rapport aux méthodes de pointe. Le code source sera disponible à l’adresse suivante : https://github.com/MVME-HBUT/SGACNet