HyperAIHyperAI

Command Palette

Search for a command to run...

Lawin Transformer : Amélioration de la segmentation sémantique par transformateur grâce à des représentations multi-échelles via une attention à fenêtre large

Haotian Yan Chuang Zhang Ming Wu

Résumé

Les représentations multi-échelles sont essentielles pour la segmentation sémantique. La communauté a assisté à l'épanouissement des réseaux de neurones convolutionnels (CNN) dédiés à la segmentation sémantique, exploitant activement des informations contextuelles à plusieurs échelles. Inspirés par la puissance du vision transformer (ViT) dans la classification d’images, plusieurs modèles de segmentation sémantique basés sur le ViT ont récemment été proposés, atteignant des résultats impressionnants, mais au prix d’un coût computationnel élevé. Dans ce travail, nous parvenons à intégrer efficacement des représentations multi-échelles dans un modèle de segmentation sémantique basé sur le ViT grâce au mécanisme d’attention par fenêtre, tout en améliorant à la fois la performance et l’efficacité. Pour cela, nous introduisons une attention par fenêtre large, qui permet à une fenêtre locale de query une zone contextuelle plus étendue avec un surcoût computationnel négligeable. En régulant le rapport entre la taille de la zone contextuelle et celle de la zone de query, nous permettons à l’attention par fenêtre large de capturer des informations contextuelles à plusieurs échelles. Par ailleurs, nous adoptons le cadre de la pooling pyramidale spatiale pour collaborer avec l’attention par fenêtre large, ce qui donne naissance à un nouveau décodeur appelé LawinASPP (Large Window Attention Spatial Pyramid Pooling) pour les modèles de segmentation sémantique basés sur le ViT. Notre modèle final, le Lawin Transformer, est composé d’un encodeur basé sur un vision transformer hiérarchique efficace (HVT) et d’un décodeur LawinASPP. Les résultats expérimentaux montrent que le Lawin Transformer offre une meilleure efficacité par rapport aux méthodes existantes. De plus, il établit de nouveaux états de l’art sur les jeux de données Cityscapes (84,4 % de mIoU), ADE20K (56,2 % de mIoU) et COCO-Stuff. Le code source sera publié à l’adresse suivante : https://github.com/yan-hao-tian/lawin


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp