HyperAIHyperAI

Command Palette

Search for a command to run...

DAT++ : Vision Transformer dynamique spatialement avec attention déformable

Zhuofan Xia Xuran Pan Shiji Song Li Erran Li Gao Huang

Résumé

Les Transformers ont démontré des performances supérieures sur diverses tâches visuelles. Leur champ réceptif étendu confère aux modèles Transformer une puissance de représentation supérieure à celle de leurs homologues basés sur les réseaux de neurones convolutifs (CNN). Toutefois, l'élargissement simple du champ réceptif soulève plusieurs préoccupations. D'une part, l'utilisation d'une attention dense dans ViT entraîne un coût mémoire et computationnel excessif, et les caractéristiques peuvent être affectées par des régions non pertinentes situées en dehors de la zone d'intérêt. D'autre part, l'attention conçue manuellement dans PVT ou Swin Transformer est indépendante des données et peut limiter la capacité à modéliser des relations à longue portée. Pour résoudre ce dilemme, nous proposons un nouveau module d'attention multi-têtes déformable, dans lequel les positions des paires clé-valeur dans l'attention auto-attention sont adaptativement attribuées de manière dépendante des données. Ce schéma flexible permet à l'attention déformable proposée de se concentrer dynamiquement sur les régions pertinentes tout en conservant la puissance de représentation de l'attention globale. À partir de ce cadre, nous présentons le Deformable Attention Transformer (DAT), un modèle de base général, efficace et performant pour la reconnaissance visuelle. Nous avons également développé une version améliorée, DAT++. Des expériences étendues montrent que notre DAT++ atteint des résultats de pointe sur diverses benchmarks de reconnaissance visuelle, avec une précision de 85,9 % sur ImageNet, des scores mAP de 54,5 et 47,0 pour la segmentation d'instances sur MS-COCO, ainsi qu'une mIoU de 51,5 pour la segmentation sémantique sur ADE20K.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp