Réinterpréter la convolution dilatée pour une segmentation sémantique en temps réel

Le champ de vue constitue une métrique essentielle lors de la conception d’un modèle pour la segmentation sémantique. Afin d’obtenir un champ de vue étendu, les approches antérieures optent généralement pour un abaissement rapide de la résolution, souvent via des opérations de moyenne (average pooling) ou des convolutions à pas 2. Nous adoptons une approche différente en utilisant des convolutions dilatées à taux de dilatation élevés tout au long du noyau (backbone), permettant ainsi au noyau d’ajuster facilement son champ de vue en modulant simplement les taux de dilatation, tout en montrant que notre méthode est compétitive par rapport aux approches existantes. Pour exploiter efficacement les convolutions dilatées, nous établissons une borne supérieure simple sur le taux de dilatation afin d’éviter tout vide entre les poids de convolution, et concevons une structure de bloc inspirée de SE-ResNeXt, qui utilise deux convolutions $3\times 3$ en parallèle avec des taux de dilatation différents, afin de préserver les détails locaux. Le réglage manuel des taux de dilatation pour chaque bloc peut s’avérer difficile, aussi introduisons-nous une méthode de recherche d’architecture neuronale différentiable, qui utilise la descente de gradient pour optimiser automatiquement les taux de dilatation. En outre, nous proposons un décodeur léger, capable de restaurer plus efficacement les informations locales que les alternatives courantes. Pour démontrer l’efficacité de notre approche, notre modèle RegSeg obtient des résultats compétitifs sur les jeux de données en temps réel Cityscapes et CamVid. Sur une GPU T4 utilisant une précision mixte, RegSeg atteint 78,3 mIOU sur l’ensemble de test Cityscapes à 37 FPS, et 80,9 mIOU sur l’ensemble de test CamVid à 112 FPS, sans pré-entraînement sur ImageNet.