LiteSeg : un nouveau ConvNet léger pour la segmentation sémantique

La segmentation sémantique d’images joue un rôle fondamental dans de nombreuses applications visuelles, notamment la conduite autonome et l’analyse d’images médicales. La plupart des approches antérieures se sont concentrées sur l’amélioration de la précision, tout en accordant peu d’attention à l’efficacité computationnelle. Dans ce travail, nous introduisons LiteSeg, une architecture légère pour la segmentation sémantique d’images. Nous explorons une version plus profonde du module Atrous Spatial Pyramid Pooling (ASPP), tout en intégrant des connexions résiduelles courtes et longues ainsi que des convolutions séparables en profondeur, ce qui conduit à un modèle plus rapide et plus efficace. L’architecture LiteSeg est proposée et évaluée avec plusieurs réseaux de base (backbone), notamment Darknet19, MobileNet et ShuffleNet, afin de fournir différents compromis entre précision et coût computationnel. Le modèle proposé LiteSeg, en utilisant MobileNetV2 comme réseau de base, atteint une précision de 67,81 % en moyenne de l’intersection sur union (mIoU) à 161 images par seconde avec une résolution de $640 \times 360$ sur le jeu de données Cityscapes.