DenseASPP pour la segmentation sémantique dans les scènes de rue

La segmentation sémantique d’images est une tâche fondamentale d’interprétation des scènes routières dans les véhicules autonomes, dans laquelle chaque pixel d’une image haute résolution est attribué à une étiquette sémantique parmi un ensemble prédéfini. Contrairement à d’autres scénarios, les objets présents dans les scènes de conduite autonome présentent des variations d’échelle extrêmement importantes, ce qui pose de grands défis pour la représentation des caractéristiques de haut niveau, dans la mesure où une information multi-échelle doit être correctement encodée. Pour remédier à ce problème, la convolution dilatée (atrous convolution) a été introduite afin de générer des caractéristiques avec des champs réceptifs plus étendus sans compromettre la résolution spatiale. S’appuyant sur cette convolution dilatée, le Pooling Pyramid Spatial Atrous (ASPP) a été proposé dans [Deeplabv2] pour concaténer plusieurs caractéristiques obtenues par convolution dilatée avec différents taux de dilatation afin de former une représentation finale. Bien que l’ASPP soit capable de générer des caractéristiques multi-échelles, nous affirmons que la résolution des caractéristiques selon l’axe d’échelle n’est pas suffisamment dense pour le contexte de conduite autonome. À cet effet, nous proposons une architecture appelée DenseASPP (Pooling Pyramid Spatial Atrous à connexion dense), qui connecte un ensemble de couches de convolution dilatée de manière dense, permettant ainsi de générer des caractéristiques multi-échelles couvrant à la fois une plage d’échelles plus large et de manière plus dense, sans augmenter significativement la taille du modèle. Nous évaluons DenseASPP sur le benchmark de scènes urbaines Cityscapes [Cityscapes] et obtenons des performances parmi les meilleures à ce jour.