HyperAIHyperAI
il y a 7 jours

Transformateur à attention par voisinage dilaté

Ali Hassani, Humphrey Shi
Transformateur à attention par voisinage dilaté
Résumé

Les Transformers deviennent rapidement l'une des architectures d'apprentissage profond les plus largement utilisées, à travers différentes modalités, domaines et tâches. En vision, au-delà des efforts continus portant sur les Transformers classiques, les Transformers hiérarchiques ont également attiré une attention croissante, grâce à leurs performances et à leur intégration aisée dans les cadres existants. Ces modèles utilisent généralement des mécanismes d'attention localisés, tels que l'Attention par Voisinage à fenêtre glissante (NA) ou l'Attention Auto-Attention par Fenêtre Décalée du Swin Transformer. Bien qu'efficaces pour réduire la complexité quadratique de l'attention auto-attention, ces approches locales affaiblissent deux propriétés les plus souhaitables de l'attention auto-attention : la modélisation des dépendances à longue portée et le champ réceptif global. Dans cet article, nous introduisons Dilated Neighborhood Attention (DiNA), une extension naturelle, flexible et efficace de NA, capable de capturer un contexte plus global et d'étendre exponentiellement le champ réceptif sans coût supplémentaire. L'attention locale de NA et l'attention globale creuse de DiNA se complètent mutuellement, d’où la proposition de Dilated Neighborhood Attention Transformer (DiNAT), un nouveau Transformer hiérarchique pour la vision reposant sur les deux mécanismes. Les variantes de DiNAT surpassent significativement des baselines solides telles que NAT, Swin et ConvNeXt. Notre modèle de grande taille est plus rapide et dépasse son homologue Swin de 1,6 % en box AP sur la détection d'objets COCO, de 1,4 % en mask AP sur la segmentation d'instances COCO, et de 1,4 % en mIoU sur la segmentation sémantique ADE20K. Associé à de nouveaux cadres, notre modèle de grande taille devient le nouveau record en segmentation panoptique sur COCO (58,5 PQ) et ADE20K (49,4 PQ), ainsi que le meilleur modèle en segmentation d'instances sur Cityscapes (45,1 AP) et ADE20K (35,4 AP) (sans données supplémentaires). Il atteint également l'état de l'art des modèles spécialisés pour la segmentation sémantique sur ADE20K (58,1 mIoU), et se classe deuxième sur Cityscapes (84,5 mIoU) (sans données supplémentaires).

Transformateur à attention par voisinage dilaté | Articles de recherche récents | HyperAI