HyperAIHyperAI

Command Palette

Search for a command to run...

Transformateur à attention par voisinage dilaté

Ali Hassani Humphrey Shi

Résumé

Les Transformers deviennent rapidement l'une des architectures d'apprentissage profond les plus largement utilisées, à travers différentes modalités, domaines et tâches. En vision, au-delà des efforts continus portant sur les Transformers classiques, les Transformers hiérarchiques ont également attiré une attention croissante, grâce à leurs performances et à leur intégration aisée dans les cadres existants. Ces modèles utilisent généralement des mécanismes d'attention localisés, tels que l'Attention par Voisinage à fenêtre glissante (NA) ou l'Attention Auto-Attention par Fenêtre Décalée du Swin Transformer. Bien qu'efficaces pour réduire la complexité quadratique de l'attention auto-attention, ces approches locales affaiblissent deux propriétés les plus souhaitables de l'attention auto-attention : la modélisation des dépendances à longue portée et le champ réceptif global. Dans cet article, nous introduisons Dilated Neighborhood Attention (DiNA), une extension naturelle, flexible et efficace de NA, capable de capturer un contexte plus global et d'étendre exponentiellement le champ réceptif sans coût supplémentaire. L'attention locale de NA et l'attention globale creuse de DiNA se complètent mutuellement, d’où la proposition de Dilated Neighborhood Attention Transformer (DiNAT), un nouveau Transformer hiérarchique pour la vision reposant sur les deux mécanismes. Les variantes de DiNAT surpassent significativement des baselines solides telles que NAT, Swin et ConvNeXt. Notre modèle de grande taille est plus rapide et dépasse son homologue Swin de 1,6 % en box AP sur la détection d'objets COCO, de 1,4 % en mask AP sur la segmentation d'instances COCO, et de 1,4 % en mIoU sur la segmentation sémantique ADE20K. Associé à de nouveaux cadres, notre modèle de grande taille devient le nouveau record en segmentation panoptique sur COCO (58,5 PQ) et ADE20K (49,4 PQ), ainsi que le meilleur modèle en segmentation d'instances sur Cityscapes (45,1 AP) et ADE20K (35,4 AP) (sans données supplémentaires). Il atteint également l'état de l'art des modèles spécialisés pour la segmentation sémantique sur ADE20K (58,1 mIoU), et se classe deuxième sur Cityscapes (84,5 mIoU) (sans données supplémentaires).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp