Command Palette
Search for a command to run...
Repenser la convolution creuse pour la segmentation sémantique d'images
Repenser la convolution creuse pour la segmentation sémantique d'images
Chen Liang-Chieh Papandreou George Schroff Florian Adam Hartwig
Résumé
Dans ce travail, nous revisitons la convolution dilatée, un outil puissant permettant d’ajuster explicitement le champ de vision du filtre ainsi que de contrôler la résolution des réponses de caractéristiques calculées par les réseaux neuronaux profonds à convolution, dans le cadre de la segmentation sémantique d’images. Pour traiter le problème de la segmentation d’objets à plusieurs échelles, nous concevons des modules qui exploitent la convolution dilatée en cascade ou en parallèle afin de capturer le contexte multi-échelle en adoptant plusieurs taux de dilatation. En outre, nous proposons d’enrichir notre module précédemment introduit, le Atrous Spatial Pyramid Pooling, qui analyse les caractéristiques convolutionnelles à plusieurs échelles, par des caractéristiques au niveau de l’image, codant le contexte global, afin d’améliorer davantage les performances. Nous détaillons également les aspects pratiques de mise en œuvre et partageons notre expérience d’entraînement de notre système. Le système proposé, appelé DeepLabv3, améliore significativement les versions précédentes de DeepLab, sans post-traitement par DenseCRF, et atteint des performances comparables à celles des meilleurs modèles actuels sur le benchmark de segmentation sémantique d’images PASCAL VOC 2012.