DeepLab : Segmentation sémantique d'images avec des réseaux de neurones convolutifs profonds, la convolution atrous et les CRF pleinement connectés

Dans cette étude, nous abordons la tâche de segmentation sémantique d'images à l'aide de l'apprentissage profond (Deep Learning) et apportons trois contributions principales qui sont expérimentalement démontrées comme ayant une valeur pratique substantielle. Premièrement, nous mettons en lumière la convolution avec des filtres échantillonnés à un taux plus élevé, ou « convolution dilatée » (atrous convolution), comme un outil puissant dans les tâches de prédiction dense. La convolution dilatée nous permet de contrôler explicitement la résolution à laquelle les réponses des caractéristiques sont calculées au sein des Réseaux Neuronaux Convolutifs Profonds (DCNN). Elle permet également d'élargir efficacement le champ de vision des filtres pour intégrer un contexte plus large sans augmenter le nombre de paramètres ou la quantité de calcul. Deuxièmement, nous proposons la pyramide d'échantillonnage spatial dilatée (Atrous Spatial Pyramid Pooling, ASPP) pour segmenter robustement les objets à plusieurs échelles. L'ASPP explore une couche de caractéristiques convolutives entrante avec des filtres à différents taux d'échantillonnage et champs de vision effectifs, capturant ainsi les objets ainsi que le contexte de l'image à plusieurs échelles. Troisièmement, nous améliorons la localisation des contours des objets en combinant des méthodes issues des DCNN et des modèles graphiques probabilistes. La combinaison couramment utilisée du max-pooling et du sous-échantillonnage dans les DCNN atteint l'invariance mais a un impact négatif sur la précision de localisation. Nous surmontons ce problème en combinant les réponses au niveau final du DCNN avec un Champ Aléatoire Conditionnel (Conditional Random Field, CRF) entièrement connecté, ce qui est démontré qualitativement et quantitativement pour améliorer les performances de localisation. Notre système proposé « DeepLab » établit un nouveau standard dans la tâche de segmentation sémantique d'images PASCAL VOC-2012, atteignant 79,7 % de mIOU dans l'ensemble de test, et progresse également sur trois autres jeux de données : PASCAL-Context, PASCAL-Person-Part et Cityscapes. Tout notre code est rendu publiquement disponible en ligne.