Réseaux Neuronaux Convolutifs Efficaces et Profonds pour la Segmentation Sémantique

La segmentation sémantique à l'aide de réseaux neuronaux convolutifs profonds présente des défis plus complexes pour toute tâche intensive en GPU. En effet, elle nécessite le calcul de millions de paramètres, ce qui entraîne une consommation mémoire importante. De plus, l'extraction de caractéristiques fines et la réalisation d'un entraînement supervisé tendent à augmenter la complexité. Avec l'introduction des Réseaux Neuronaux Convolutifs Complètement (Fully Convolutional Neural Network), qui utilisent des pas plus fins et exploitent les couches déconvolutives pour l'upsampling, ces modèles sont devenus la solution privilégiée pour toute tâche de segmentation d'image.Dans cet article, nous proposons deux architectures de segmentation qui non seulement nécessitent un tiers des paramètres à calculer par rapport aux architectures similaires, mais offrent également une meilleure précision. Les poids du modèle ont été transférés à partir de réseaux neuronaux populaires comme VGG19 et VGG16, préalablement entraînés sur le jeu de données d'classification ImageNet. Nous transformons ensuite toutes les couches entièrement connectées en couches convolutives et utilisons des convolutions dilatées pour réduire le nombre de paramètres. Enfin, nous ajoutons des pas plus fins et intégrons quatre architectures skip qui sont sommées élément par élément avec les couches déconvolutives au cours des étapes.Nous avons formé et testé notre modèle sur différents jeux de données clairsemés et fins, tels que Pascal VOC2012, Pascal-Context et NYUDv2, montrant ainsi comment notre modèle se distingue dans ces tâches. Par ailleurs, notre modèle offre un temps d'inférence plus rapide et consomme moins de mémoire lors de l'entraînement et du test sur les GPU NVIDIA Pascal, ce qui en fait une architecture plus efficace et moins gourmande en mémoire pour la segmentation pixel par pixel.