il y a 2 mois

Réexaminer la convolution atrou pour la segmentation sémantique d'images

Chen, Liang-Chieh ; Papandreou, George ; Schroff, Florian ; Adam, Hartwig

Résumé

Dans cette étude, nous réexaminons la convolution atrous, un outil puissant permettant d'ajuster explicitement le champ de vision des filtres ainsi que de contrôler la résolution des réponses de caractéristiques calculées par les Réseaux Neuronaux Convolutifs Profonds (Deep Convolutional Neural Networks) dans l'application du segmention sémantique d'images. Pour traiter le problème de segmentation d'objets à différentes échelles, nous concevons des modules qui utilisent la convolution atrous en cascade ou en parallèle afin de capturer le contexte multi-échelle en adoptant plusieurs taux atrous. De plus, nous proposons d'améliorer notre module Atrous Spatial Pyramid Pooling précédemment introduit, qui explore les caractéristiques convolutives à plusieurs échelles, en y ajoutant des caractéristiques au niveau de l'image pour encoder le contexte global et ainsi améliorer davantage les performances. Nous détaillons également les aspects techniques de l'implémentation et partageons notre expérience sur l'entraînement de notre système. Le système proposé `DeepLabv3' améliore considérablement nos versions précédentes de DeepLab sans post-traitement DenseCRF et atteint des performances comparables à celles des autres modèles de pointe sur le banc d'essai de segmentation sémantique d'images PASCAL VOC 2012.