HyperAIHyperAI
il y a 2 mois

CCNet : Attention en Croix pour la Segmentation Sémantique

Zilong Huang; Xinggang Wang; Yunchao Wei; Lichao Huang; Humphrey Shi; Wenyu Liu; Thomas S. Huang
CCNet : Attention en Croix pour la Segmentation Sémantique
Résumé

Les informations contextuelles sont essentielles dans les problèmes de compréhension visuelle, tels que la segmentation sémantique et la détection d'objets. Nous proposons un réseau en croix (Criss-Cross Network, CCNet) pour obtenir des informations contextuelles sur l'image entière de manière très efficace et performante. Plus précisément, pour chaque pixel, un nouveau module d'attention en croix recueille les informations contextuelles de tous les pixels situés sur son chemin en croix. En effectuant une opération récurrente supplémentaire, chaque pixel peut finalement capturer les dépendances de l'image entière. De plus, une perte de cohérence catégorielle est proposée pour obliger le module d'attention en croix à produire des caractéristiques plus discriminantes. Dans l'ensemble, le CCNet présente les avantages suivants : 1) Il est peu gourmand en mémoire GPU. Comparé au bloc non local, le module d'attention en croix récurrent proposé nécessite 11 fois moins d'utilisation de mémoire GPU. 2) Il offre une haute efficacité computationnelle. L'attention en croix récurrente réduit considérablement les FLOPs (opérations flottantes par seconde) par rapport au bloc non local, soit environ 85%. 3) Il atteint des performances de pointe. Nous avons mené des expériences approfondies sur des benchmarks de segmentation sémantique, notamment Cityscapes, ADE20K, ainsi que sur des benchmarks de parsing humain comme LIP, de segmentation d'instances comme COCO et de segmentation vidéo comme CamVid. En particulier, notre CCNet obtient des scores mIoU (mean Intersection over Union) de 81,9 % sur l'ensemble de test Cityscapes, 45,76 % sur l'ensemble de validation ADE20K et 55,47 % sur l'ensemble de validation LIP, qui constituent les nouveaux résultats de pointe. Les codes sources sont disponibles à l'adresse \url{https://github.com/speedinghzl/CCNet}.

CCNet : Attention en Croix pour la Segmentation Sémantique | Articles de recherche récents | HyperAI