HyperAIHyperAI
il y a 2 mois

SegNet : Une architecture de réseau convolutif profond encodeur-décodeur pour la segmentation d'images

Vijay Badrinarayanan; Alex Kendall; Roberto Cipolla
SegNet : Une architecture de réseau convolutif profond encodeur-décodeur pour la segmentation d'images
Résumé

Nous présentons une nouvelle et pratique architecture de réseau neuronal profond entièrement convolutif pour la segmentation sémantique au niveau des pixels, appelée SegNet. Ce moteur de segmentation principal et entraînable se compose d'un réseau encodeur, suivi d'un réseau décodeur correspondant et d'une couche de classification au niveau des pixels. L'architecture du réseau encodeur est topologiquement identique aux 13 couches convolutives du réseau VGG16. Le rôle du réseau décodeur est de mapper les cartes de caractéristiques à faible résolution produites par l'encodeur en cartes de caractéristiques à pleine résolution d'entrée pour la classification au niveau des pixels. L'originalité de SegNet réside dans la manière dont le décodeur augmente la résolution de ses cartes de caractéristiques d'entrée à faible résolution. Plus précisément, le décodeur utilise les indices de poolage calculés lors de l'étape de poolage maximum (max-pooling) correspondante de l'encodeur pour effectuer un échantillonnage non-linéaire. Cela élimine la nécessité d'apprendre à augmenter la résolution. Les cartes échantillonnées sont éparse et sont ensuite convoluées avec des filtres entraînables pour produire des cartes de caractéristiques denses.Nous comparons notre architecture proposée avec l'architecture FCN largement adoptée ainsi qu'avec les architectures bien connues DeepLab-LargeFOV et DeconvNet. Cette comparaison met en lumière le compromis entre mémoire et précision impliqué dans l'obtention d'une bonne performance en segmentation.SegNet a été principalement motivé par les applications liées à la compréhension des scènes. Par conséquent, il est conçu pour être efficace tant en termes de mémoire que de temps de calcul lors de l'inférence. Il est également considérablement plus petit en termes de paramètres entraînables que les autres architectures concurrentes. Nous avons également réalisé un benchmark contrôlé de SegNet et d'autres architectures sur des tâches de segmentation des scènes routières et des scènes intérieures SUN RGB-D. Nous montrons que SegNet offre une bonne performance avec un temps d'inférence compétitif et une utilisation plus efficace de la mémoire lors de l'inférence par rapport aux autres architectures.Nous fournissons également une implémentation Caffe de SegNet ainsi qu'une démonstration web à l'adresse suivante : http://mi.eng.cam.ac.uk/projects/segnet/.

SegNet : Une architecture de réseau convolutif profond encodeur-décodeur pour la segmentation d'images | Articles de recherche récents | HyperAI