Compréhension de la convolution pour la segmentation sémantique

Les progrès récents dans l'apprentissage profond, en particulier les réseaux de neurones convolutifs profonds (CNNs), ont permis d'importantes améliorations par rapport aux systèmes précédents de segmentation sémantique. Dans cet article, nous montrons comment améliorer la segmentation sémantique au niveau des pixels en manipulant les opérations liées à la convolution, qui présentent une valeur théorique et pratique. Premièrement, nous concevons une convolution d'échantillonnage dense (DUC) pour générer des prédictions au niveau des pixels, capable de capturer et de décoder des informations plus détaillées généralement absentes dans l'échantillonnage bilinéaire. Deuxièmement, nous proposons un cadre hybride de convolution dilatée (HDC) lors de la phase d'encodage. Ce cadre 1) agrandit efficacement les champs récepteurs (RF) du réseau pour intégrer des informations globales ; 2) atténue ce que nous appelons le « problème de grille » causé par l'opération standard de convolution dilatée. Nous évaluons nos approches de manière exhaustive sur l'ensemble de données Cityscapes, obtenant un résultat d'état de l'art avec un mIOU de 80,1% dans l'ensemble de test au moment de la soumission. Nous avons également obtenu des résultats d'état de l'art globaux sur le banc d'essai KITTI pour l'estimation des routes et sur la tâche de segmentation PASCAL VOC2012. Notre code source est disponible à l'adresse suivante : https://github.com/TuSimple/TuSimple-DUC .