HyperAIHyperAI
il y a 11 jours

PAT : Transformer Aware de Position pour la Détection Dense à Multiples Étiquettes d'Actions

Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton
PAT : Transformer Aware de Position pour la Détection Dense à Multiples Étiquettes d'Actions
Résumé

Nous présentons PAT, un réseau fondé sur les transformateurs, qui apprend des dépendances temporelles complexes entre actions co-occurrentes dans une vidéo en exploitant des caractéristiques temporelles à plusieurs échelles. Dans les méthodes existantes, le mécanisme d'attention auto-associative des transformateurs perd l'information de position temporelle, qui est essentielle pour une détection robuste des actions. Pour remédier à ce problème, nous proposons (i) d'intégrer une encodage positionnel relatif dans le mécanisme d'attention auto-associative, et (ii) d'exploiter les relations temporelles à plusieurs échelles en concevant un nouveau réseau non hiérarchique, contrairement aux approches récentes basées sur les transformateurs qui utilisent une structure hiérarchique. Nous affirmons que l'association du mécanisme d'attention auto-associative avec plusieurs processus de sous-échantillonnage dans les approches hiérarchiques entraîne une perte accrue d'information de position. Nous évaluons la performance de notre approche proposée sur deux jeux de données de référence exigeants à étiquetage dense et multi-étiquettes, et montrons que PAT améliore les résultats actuels de l'état de l'art de 1,1 % et 0,6 % en mAP sur les jeux de données Charades et MultiTHUMOS, respectivement, atteignant ainsi de nouveaux records en mAP de 26,5 % et 44,6 %. Nous menons également des études d'ablation approfondies afin d'analyser l'impact de chaque composant du réseau proposé.

PAT : Transformer Aware de Position pour la Détection Dense à Multiples Étiquettes d'Actions | Articles de recherche récents | HyperAI