HyperAIHyperAI
il y a 2 mois

SegNeXt : Réflexion sur la conception de l'attention convolutive pour la segmentation sémantique

Meng-Hao Guo; Cheng-Ze Lu; Qibin Hou; Zhengning Liu; Ming-Ming Cheng; Shi-Min Hu
SegNeXt : Réflexion sur la conception de l'attention convolutive pour la segmentation sémantique
Résumé

Nous présentons SegNeXt, une architecture de réseau convolutif simple pour la segmentation sémantique. Les modèles récents basés sur les transformateurs ont dominé le domaine de la segmentation sémantique grâce à l'efficacité de l'auto-attention dans l'encodage des informations spatiales. Dans cet article, nous montrons que l'attention convolutive est un moyen plus efficace et performant d'encoder les informations contextuelles que le mécanisme d'auto-attention des transformateurs. En réexaminant les caractéristiques des modèles de segmentation réussis, nous découvrons plusieurs composants clés qui contribuent à l'amélioration des performances des modèles de segmentation. Cela nous motive à concevoir un nouveau réseau d'attention convolutive utilisant des opérations convolutives peu coûteuses. Sans artifices superflus, notre SegNeXt améliore considérablement les performances des méthodes précédentes de pointe sur des benchmarks populaires, tels que ADE20K, Cityscapes, COCO-Stuff, Pascal VOC, Pascal Context et iSAID. Notamment, SegNeXt surpasses EfficientNet-L2 avec NAS-FPN et atteint 90,6 % de mIoU sur le classement de test Pascal VOC 2012 en utilisant seulement 1/10ème de ses paramètres. En moyenne, SegNeXt réalise une amélioration d'environ 2,0 % en mIoU par rapport aux méthodes de pointe sur les jeux de données ADE20K avec les mêmes ou moins de calculs. Le code est disponible sur https://github.com/uyzhang/JSeg (Jittor) et https://github.com/Visual-Attention-Network/SegNeXt (Pytorch).