HyperAIHyperAI

Command Palette

Search for a command to run...

PAT : Transformer Aware de Position pour la Détection Dense à Multiples Étiquettes d'Actions

Faegheh Sardari Armin Mustafa Philip J. B. Jackson Adrian Hilton

Résumé

Nous présentons PAT, un réseau fondé sur les transformateurs, qui apprend des dépendances temporelles complexes entre actions co-occurrentes dans une vidéo en exploitant des caractéristiques temporelles à plusieurs échelles. Dans les méthodes existantes, le mécanisme d'attention auto-associative des transformateurs perd l'information de position temporelle, qui est essentielle pour une détection robuste des actions. Pour remédier à ce problème, nous proposons (i) d'intégrer une encodage positionnel relatif dans le mécanisme d'attention auto-associative, et (ii) d'exploiter les relations temporelles à plusieurs échelles en concevant un nouveau réseau non hiérarchique, contrairement aux approches récentes basées sur les transformateurs qui utilisent une structure hiérarchique. Nous affirmons que l'association du mécanisme d'attention auto-associative avec plusieurs processus de sous-échantillonnage dans les approches hiérarchiques entraîne une perte accrue d'information de position. Nous évaluons la performance de notre approche proposée sur deux jeux de données de référence exigeants à étiquetage dense et multi-étiquettes, et montrons que PAT améliore les résultats actuels de l'état de l'art de 1,1 % et 0,6 % en mAP sur les jeux de données Charades et MultiTHUMOS, respectivement, atteignant ainsi de nouveaux records en mAP de 26,5 % et 44,6 %. Nous menons également des études d'ablation approfondies afin d'analyser l'impact de chaque composant du réseau proposé.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
PAT : Transformer Aware de Position pour la Détection Dense à Multiples Étiquettes d'Actions | Articles | HyperAI