il y a 3 mois

Lawin Transformer : Amélioration de la segmentation sémantique par transformateur grâce à des représentations multi-échelles via une attention à fenêtre large

Haotian Yan, Chuang Zhang, Ming Wu

Résumé

Les représentations multi-échelles sont essentielles pour la segmentation sémantique. La communauté a assisté à l'épanouissement des réseaux de neurones convolutionnels (CNN) dédiés à la segmentation sémantique, exploitant activement des informations contextuelles à plusieurs échelles. Inspirés par la puissance du vision transformer (ViT) dans la classification d’images, plusieurs modèles de segmentation sémantique basés sur le ViT ont récemment été proposés, atteignant des résultats impressionnants, mais au prix d’un coût computationnel élevé. Dans ce travail, nous parvenons à intégrer efficacement des représentations multi-échelles dans un modèle de segmentation sémantique basé sur le ViT grâce au mécanisme d’attention par fenêtre, tout en améliorant à la fois la performance et l’efficacité. Pour cela, nous introduisons une attention par fenêtre large, qui permet à une fenêtre locale de query une zone contextuelle plus étendue avec un surcoût computationnel négligeable. En régulant le rapport entre la taille de la zone contextuelle et celle de la zone de query, nous permettons à l’attention par fenêtre large de capturer des informations contextuelles à plusieurs échelles. Par ailleurs, nous adoptons le cadre de la pooling pyramidale spatiale pour collaborer avec l’attention par fenêtre large, ce qui donne naissance à un nouveau décodeur appelé LawinASPP (Large Window Attention Spatial Pyramid Pooling) pour les modèles de segmentation sémantique basés sur le ViT. Notre modèle final, le Lawin Transformer, est composé d’un encodeur basé sur un vision transformer hiérarchique efficace (HVT) et d’un décodeur LawinASPP. Les résultats expérimentaux montrent que le Lawin Transformer offre une meilleure efficacité par rapport aux méthodes existantes. De plus, il établit de nouveaux états de l’art sur les jeux de données Cityscapes (84,4 % de mIoU), ADE20K (56,2 % de mIoU) et COCO-Stuff. Le code source sera publié à l’adresse suivante : https://github.com/yan-hao-tian/lawin