Réseau de convolution graphique dual pour la segmentation sémantique

L’exploitation des informations contextuelles à longue portée est essentielle pour les tâches de prédiction par pixel telles que la segmentation sémantique. Contrairement aux approches antérieures basées sur la fusion de caractéristiques multi-échelles ou les convolutions dilatées, nous proposons un nouveau réseau de convolution de graphe (GCN) pour résoudre ce problème. Notre réseau Dual Graph Convolutional Network (DGCNet) modélise le contexte global des caractéristiques d’entrée en représentant deux graphes orthogonaux au sein d’un même cadre. La première composante modélise les relations spatiales entre les pixels de l’image, tandis que la seconde capture les interdépendances le long des dimensions canal du cartogramme de caractéristiques du réseau. Cette modélisation est réalisée de manière efficace en projetant les caractéristiques dans un nouvel espace de dimension réduite, où toutes les interactions par paires peuvent être efficacement modélisées, avant de les reprojeter dans l’espace d’origine. Notre méthode simple apporte des bénéfices significatifs par rapport à une base solide et atteint des résultats de pointe sur les jeux de données Cityscapes (82,0 % de moyenne d’IoU) et Pascal Context (53,7 % de moyenne d’IoU). Le code et les modèles sont mis à disposition afin de favoriser toute recherche ultérieure (\url{https://github.com/lxtGH/GALD-DGCNet}).