HyperAIHyperAI
il y a 17 jours

Segmentation de scène avec réseau d'attention aware des relations duals

{Hanqing Lu, Yongjun Bao, Jie Jiang, Jing Liu, Yong Li, Jun Fu}
Résumé

Dans cet article, nous proposons un réseau d’attention sensible aux relations doubles (DRANet) pour traiter la tâche de segmentation d’images. L’exploitation efficace du contexte est essentielle pour la reconnaissance au niveau des pixels. Pour répondre à ce défi, nous capturons de manière adaptative l’information contextuelle à l’aide d’un mécanisme d’attention sensible aux relations. Plus précisément, nous ajoutons deux types de modules d’attention au sommet d’un réseau fully convolutionnel dilaté (FCN), qui modélisent respectivement les dépendances contextuelles dans les dimensions spatiale et canal. Dans ces modules d’attention, nous utilisons un mécanisme d’attention auto-référentielle pour modéliser les associations sémantiques entre n’importe quel couple de pixels ou de canaux. Chaque pixel ou canal peut ainsi agréger de manière adaptative le contexte provenant de tous les autres pixels ou canaux, selon leurs corrélations respectives. Afin de réduire le coût élevé en calcul et en mémoire engendré par le calcul des associations par paires mentionnées ci-dessus, nous concevons par la suite deux types de modules d’attention compacts. Dans ces modules compacts, chaque pixel ou canal établit des associations uniquement avec un petit nombre de centres de collecte, et obtient une agrégation contextuelle correspondante à partir de ces centres. Par ailleurs, nous intégrons un décodeur à portes croisées entre niveaux, qui permet d’amplifier de manière sélective les détails spatiaux et ainsi améliorer les performances du réseau. Nous menons des expériences étendues pour valider l’efficacité de notre architecture, et atteignons de nouveaux résultats de pointe en segmentation d’images sur quatre jeux de données exigeants : Cityscapes, ADE20K, PASCAL Context et COCO Stuff. En particulier, nous obtenons un score Mean IoU de 82,9 % sur le jeu de test de Cityscapes, sans recourir à des données d’annotation grossières supplémentaires.

Segmentation de scène avec réseau d'attention aware des relations duals | Articles de recherche récents | HyperAI