Réseau de fusion de guidage sensible au bord pour l'analyse de scènes RGB-infrarouge

La segmentation de scènes en vue RGB et thermique a récemment suscité un intérêt croissant dans le domaine de la vision par ordinateur. Toutefois, la plupart des méthodes existantes peinent à extraire efficacement les contours des cartes de prédiction et ne parviennent pas à exploiter pleinement les caractéristiques de haut niveau. En outre, ces approches fusionnent simplement les caractéristiques provenant des modalités RGB et thermique, sans parvenir à obtenir des caractéristiques fusionnées complètes et enrichies. Pour résoudre ces problèmes, nous proposons un réseau de fusion guidée par les contours (EGFNet) pour la segmentation de scènes RGB et thermique. Premièrement, nous introduisons une carte de contours a priori, générée à partir des images RGB et thermiques, afin de capturer des informations détaillées dans la carte de prédiction, puis intégrons ces informations de contours dans les cartes de caractéristiques. Pour assurer une fusion efficace des informations RGB et thermiques, nous proposons un module de fusion multimodale garantissant une fusion transmodale adéquate. Tenant compte de l'importance des informations sémantiques de haut niveau, nous introduisons un module d'information globale et un module d'information sémantique afin d'extraire des informations sémantiques riches à partir des caractéristiques de haut niveau. Pour la décodification, nous utilisons une addition élément par élément pour la fusion en cascade des caractéristiques. Enfin, afin d’améliorer la précision de la segmentation, nous appliquons une supervision profonde multitâche aux cartes sémantiques et aux cartes de contours. Des expériences étendues ont été menées sur des jeux de données de référence afin de démontrer l’efficacité du modèle EGFNet proposé, ainsi que ses performances supérieures par rapport aux méthodes de pointe. Le code et les résultats sont disponibles à l’adresse suivante : https://github.com/ShaohuaDong2021/EGFNet.