HyperAIHyperAI
il y a 17 jours

SpineNet à dilatation pour la segmentation sémantique

Abdullah Rashwan, Xianzhi Du, Xiaoqi Yin, Jing Li
SpineNet à dilatation pour la segmentation sémantique
Résumé

Les réseaux à permutation d’échelle ont montré des résultats prometteurs pour la détection de boîtes englobantes d’objets et la segmentation d’instances. La permutation d’échelle et la fusion cross-échelle des caractéristiques permettent au réseau de capturer des sémantiques multi-échelles tout en préservant une haute résolution spatiale. Dans ce travail, nous évaluons cette architecture méta sur la segmentation sémantique — une autre tâche de vision qui bénéficie fortement d’une haute résolution spatiale et de la fusion de caractéristiques multi-échelles à différentes étapes du réseau. En exploitant davantage les opérations de convolution dilatée, nous proposons SpineNet-Seg, un réseau découvert par recherche automatique de réseau (NAS) à partir du système DeepLabv3. SpineNet-Seg est conçu avec une topologie améliorée de réseau à permutation d’échelle, associée à des ratios de dilatation personnalisés par bloc, spécifiquement pour la tâche de segmentation sémantique. Les modèles SpineNet-Seg surpassent les bases DeepLabv3/v3+ à toutes les tailles de modèle sur plusieurs benchmarks populaires, tant en termes de vitesse que de précision. En particulier, notre modèle SpineNet-S143+ atteint un nouveau record d’état de l’art sur le benchmark populaire Cityscapes avec un mIoU de 83,04 %, tout en obtenant des performances solides sur le benchmark PASCAL VOC2012 avec un mIoU de 85,56 %. Les modèles SpineNet-Seg montrent également des résultats prometteurs sur un jeu de données exigeant de la segmentation Street View. Le code source et les points de contrôle seront rendus disponibles publiquement.