ESNet : Un réseau symétrique efficace pour la segmentation sémantique en temps réel

Ces dernières années ont vu d'importants progrès dans le domaine de la segmentation sémantique grâce aux réseaux neuronaux convolutifs profonds (RNCP). Cependant, un grand nombre de couches convolutives et de canaux de caractéristiques rendent la segmentation sémantique une tâche très exigeante en termes de calcul, ce qui est désavantageux dans les scénarios à ressources limitées. Dans cet article, nous concevons un réseau symétrique efficace, appelé ESNet, pour résoudre ce problème. L'architecture globale du réseau est presque symétrique et se compose principalement d'une série d'unités de convolution factorisée (UCF) et de leurs versions parallèles (PUCF). D'une part, l'UCF utilise une convolution factorisée 1D largement utilisée dans les couches résiduelles. D'autre part, la version parallèle emploie une stratégie de transformation-partage-transformation-fusion dans la conception du module résiduel, où la branche de partage utilise des convolutions dilatées avec différents taux pour élargir le champ récepteur. Notre modèle compte environ 1,6 million de paramètres et peut atteindre plus de 62 images par seconde (FPS) sur une seule carte graphique GTX 1080Ti. Les expériences montrent que notre approche obtient des résultats d'état de l'art en termes de compromis entre vitesse et précision pour la segmentation sémantique en temps réel sur l'ensemble de données CityScapes.