HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage des structures de corrélation pour les Transformers en vision

Manjin Kim Paul Hongsuck Seo Cordelia Schmid Minsu Cho

Résumé

Nous présentons un nouveau mécanisme d'attention, appelé attention structurée auto (StructSA), qui exploite les motifs de corrélation riches qui émergent naturellement dans les interactions clé-requête de l'attention. StructSA génère des cartes d'attention en reconnaissant les structures spatio-temporelles des corrélations clé-requête par le biais de convolutions et utilise ces cartes pour agréger dynamiquement les contextes locaux des caractéristiques de valeur. Cela permet d'exploiter efficacement les motifs structuraux riches présents dans les images et les vidéos, tels que la disposition des scènes, le mouvement des objets et les relations inter-objets. En utilisant StructSA comme bloc de construction principal, nous développons le transformateur visuel structuré (StructViT) et évaluons son efficacité sur des tâches de classification d'images et de vidéos, obtenant des résultats à l'état de l'art sur ImageNet-1K, Kinetics-400, Something-Something V1 & V2, Diving-48 et FineGym.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp