HyperAIHyperAI

Command Palette

Search for a command to run...

S2^22-FPN : Réseau de pyramide de caractéristiques guidé par une attention en bande à échelle pour la segmentation sémantique en temps réel

Mohammed A. M. Elhassan Chenhui Yang Chenxi Huang Tewodros Legesse Munea Xin Hong Abuzar B. M. Adam Amina Benabid

Résumé

Les méthodes modernes de segmentation sémantique à haute performance reposent généralement sur un modèle principal (backbone) lourd et des convolutions dilatées afin d’extraire des caractéristiques pertinentes. Bien que l’extraction de caractéristiques contenant à la fois des informations contextuelles et sémantiques soit cruciale pour les tâches de segmentation, cela entraîne une importante consommation de mémoire et un coût computationnel élevé, ce qui constitue un défi pour les applications en temps réel. Ce papier présente un nouveau modèle permettant d’atteindre un compromis optimal entre précision et vitesse pour la segmentation sémantique en temps réel des scènes routières. Plus précisément, nous proposons un modèle léger nommé Scale-aware Strip Attention Guided Feature Pyramid Network (S2^22-FPN). Notre architecture repose sur trois modules principaux : le module de fusion pyramidale à attention (APF), le module d’attention par bande à prise en compte de l’échelle (SSAM), et le module de redimensionnement global des caractéristiques (GFU). Le module APF utilise un mécanisme d’attention pour apprendre des caractéristiques multi-échelles discriminantes et réduire l’écart sémantique entre différents niveaux de la pyramide. Il exploite une attention sensible à l’échelle pour encoder le contexte global via une opération de découpage vertical, tout en modélisant les dépendances à longue portée, ce qui permet de relier efficacement les pixels ayant des étiquettes sémantiques similaires. En outre, APF intègre un bloc de réévaluation par canal (CRB) afin de renforcer les caractéristiques des canaux. Enfin, le décodeur de S2^22-FPN utilise le module GFU pour fusionner les caractéristiques provenant à la fois d’APF et du encodeur. Des expériences étendues ont été menées sur deux benchmarks exigeants de segmentation sémantique, démontrant que notre approche atteint un meilleur compromis entre précision et vitesse pour différentes configurations de modèle. Les modèles proposés obtiennent respectivement des résultats de 76,2 % mIoU à 87,3 FPS, 77,4 % mIoU à 67 FPS et 77,8 % mIoU à 30,5 FPS sur le jeu de données Cityscapes, ainsi que 69,6 % mIoU, 71,0 % mIoU et 74,2 % mIoU sur le jeu de données CamVid. Le code associé à ce travail sera rendu disponible à l’adresse suivante : \url{https://github.com/mohamedac29/S2-FPN}.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
S$^2$-FPN : Réseau de pyramide de caractéristiques guidé par une attention en bande à échelle pour la segmentation sémantique en temps réel | Articles | HyperAI