Réseaux Squeeze-and-Attention pour la segmentation sémantique

L’intégration récente de mécanismes d’attention dans les réseaux de segmentation améliore leurs capacités de représentation en mettant l’accent sur des caractéristiques plus informatives. Toutefois, ces mécanismes d’attention négligent une sous-tâche implicite de la segmentation sémantique et sont limités par la structure en grille des noyaux de convolution. Dans cet article, nous proposons une nouvelle architecture de réseau de type squeeze-and-attention (SANet), qui exploite un module efficace de squeeze-and-attention (SA) afin de tenir compte de deux caractéristiques distinctives de la segmentation : i) l’attention sur des groupes de pixels, et ii) la prédiction au niveau pixel. Plus précisément, les modules SA proposés imposent une attention sur les groupes de pixels aux convolutions conventionnelles en introduisant un canal de convolution « d’attention », permettant ainsi de modéliser efficacement les dépendances spatiales et canaliques. Les résultats finaux de segmentation sont obtenus en fusionnant les sorties provenant des quatre étages hiérarchiques de SANet, afin d’intégrer des contextes multi-échelles et d’améliorer ainsi la prédiction au niveau pixel. Des expérimentations empiriques menées sur deux jeux de données publics exigeants valident l’efficacité des SANets proposés, qui atteignent un mIoU de 83,2 % (sans pré-entraînement sur COCO) sur PASCAL VOC et un mIoU de pointe de 54,4 % sur PASCAL Context.