Encodeur-Décodeur avec Convolution Séparable Dilatée pour la Segmentation Sémantique d'Images

Dans les réseaux neuronaux profonds utilisés pour la tâche de segmentation sémantique, on trouve des modules de regroupement pyramidal spatial (spatial pyramid pooling) ou des structures encodeur-décodeur. Les premiers sont capables d'encoder des informations contextuelles à plusieurs échelles en appliquant des filtres ou des opérations de regroupement aux caractéristiques entrantes à différents taux et sur différents champs de vision effectifs, tandis que les seconds peuvent capturer des contours d'objets plus nets en récupérant progressivement les informations spatiales. Dans cette étude, nous proposons de combiner les avantages de ces deux méthodes. Plus précisément, notre modèle proposé, DeepLabv3+, étend DeepLabv3 en ajoutant un module décodeur simple mais efficace pour affiner les résultats de segmentation, en particulier le long des contours d'objets. Nous explorons également davantage le modèle Xception et appliquons la convolution séparable en profondeur aux modules Atrous Spatial Pyramid Pooling et décodeur, ce qui aboutit à un réseau encodeur-décodeur plus rapide et plus puissant. Nous démontrons l'efficacité du modèle proposé sur les jeux de données PASCAL VOC 2012 et Cityscapes, atteignant une performance sur l'ensemble de test de 89,0 % et 82,1 % sans aucun traitement postérieur. Notre article est accompagné d'une implémentation de référence publiquement disponible des modèles proposés dans Tensorflow à l'adresse \url{https://github.com/tensorflow/models/tree/master/research/deeplab}.