Conception des taux de dilatation en fonction de la résolution pour les réseaux de segmentation sémantique

DeepLab est un réseau neuronal profond largement utilisé pour la segmentation sémantique, dont le succès est attribué à son architecture parallèle appelée atrous spatial pyramid pooling (ASPP). L'ASPP utilise plusieurs convolutions atrous avec des taux d'atrous différents pour extraire à la fois des informations locales et globales. Cependant, des valeurs fixes des taux d'atrous sont utilisées pour le module ASPP, ce qui limite la taille de son champ de vision. En principe, le taux d'atrous devrait être un hyperparamètre permettant de modifier la taille du champ de vision en fonction de la tâche cible ou du jeu de données. Cependant, l'ajustement du taux d'atrous n'est pas régi par aucune directive. Cette étude propose des directives pratiques pour obtenir un taux d'atrous optimal. Tout d'abord, un champ récepteur efficace pour la segmentation sémantique est introduit afin d'analyser le comportement interne des réseaux de segmentation. Nous avons observé que l'utilisation du module ASPP engendrait un modèle spécifique dans le champ récepteur efficace, qui a été tracé pour révéler le mécanisme sous-jacent du module. En conséquence, nous établissons des directives pratiques pour obtenir le taux d'atrous optimal, qui devrait être contrôlé en fonction de la taille de l'image d'entrée. Comparativement à d'autres valeurs, l'utilisation du taux d'atrous optimal a amélioré de manière constante les résultats de segmentation sur plusieurs jeux de données, notamment les jeux de données STARE, CHASE_DB1, HRF, Cityscapes et iSAID.