S$^2$-FPN : Réseau de pyramide de caractéristiques guidé par une attention en bande à échelle pour la segmentation sémantique en temps réel

Les méthodes modernes de segmentation sémantique à haute performance reposent généralement sur un modèle principal (backbone) lourd et des convolutions dilatées afin d’extraire des caractéristiques pertinentes. Bien que l’extraction de caractéristiques contenant à la fois des informations contextuelles et sémantiques soit cruciale pour les tâches de segmentation, cela entraîne une importante consommation de mémoire et un coût computationnel élevé, ce qui constitue un défi pour les applications en temps réel. Ce papier présente un nouveau modèle permettant d’atteindre un compromis optimal entre précision et vitesse pour la segmentation sémantique en temps réel des scènes routières. Plus précisément, nous proposons un modèle léger nommé Scale-aware Strip Attention Guided Feature Pyramid Network (S$^2$-FPN). Notre architecture repose sur trois modules principaux : le module de fusion pyramidale à attention (APF), le module d’attention par bande à prise en compte de l’échelle (SSAM), et le module de redimensionnement global des caractéristiques (GFU). Le module APF utilise un mécanisme d’attention pour apprendre des caractéristiques multi-échelles discriminantes et réduire l’écart sémantique entre différents niveaux de la pyramide. Il exploite une attention sensible à l’échelle pour encoder le contexte global via une opération de découpage vertical, tout en modélisant les dépendances à longue portée, ce qui permet de relier efficacement les pixels ayant des étiquettes sémantiques similaires. En outre, APF intègre un bloc de réévaluation par canal (CRB) afin de renforcer les caractéristiques des canaux. Enfin, le décodeur de S$^2$-FPN utilise le module GFU pour fusionner les caractéristiques provenant à la fois d’APF et du encodeur. Des expériences étendues ont été menées sur deux benchmarks exigeants de segmentation sémantique, démontrant que notre approche atteint un meilleur compromis entre précision et vitesse pour différentes configurations de modèle. Les modèles proposés obtiennent respectivement des résultats de 76,2 % mIoU à 87,3 FPS, 77,4 % mIoU à 67 FPS et 77,8 % mIoU à 30,5 FPS sur le jeu de données Cityscapes, ainsi que 69,6 % mIoU, 71,0 % mIoU et 74,2 % mIoU sur le jeu de données CamVid. Le code associé à ce travail sera rendu disponible à l’adresse suivante : \url{https://github.com/mohamedac29/S2-FPN}.