il y a 17 jours

DAT++ : Vision Transformer dynamique spatialement avec attention déformable

Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang

Résumé

Les Transformers ont démontré des performances supérieures sur diverses tâches visuelles. Leur champ réceptif étendu confère aux modèles Transformer une puissance de représentation supérieure à celle de leurs homologues basés sur les réseaux de neurones convolutifs (CNN). Toutefois, l'élargissement simple du champ réceptif soulève plusieurs préoccupations. D'une part, l'utilisation d'une attention dense dans ViT entraîne un coût mémoire et computationnel excessif, et les caractéristiques peuvent être affectées par des régions non pertinentes situées en dehors de la zone d'intérêt. D'autre part, l'attention conçue manuellement dans PVT ou Swin Transformer est indépendante des données et peut limiter la capacité à modéliser des relations à longue portée. Pour résoudre ce dilemme, nous proposons un nouveau module d'attention multi-têtes déformable, dans lequel les positions des paires clé-valeur dans l'attention auto-attention sont adaptativement attribuées de manière dépendante des données. Ce schéma flexible permet à l'attention déformable proposée de se concentrer dynamiquement sur les régions pertinentes tout en conservant la puissance de représentation de l'attention globale. À partir de ce cadre, nous présentons le Deformable Attention Transformer (DAT), un modèle de base général, efficace et performant pour la reconnaissance visuelle. Nous avons également développé une version améliorée, DAT++. Des expériences étendues montrent que notre DAT++ atteint des résultats de pointe sur diverses benchmarks de reconnaissance visuelle, avec une précision de 85,9 % sur ImageNet, des scores mAP de 54,5 et 47,0 pour la segmentation d'instances sur MS-COCO, ainsi qu'une mIoU de 51,5 pour la segmentation sémantique sur ADE20K.