Command Palette
Search for a command to run...
PAT : Transformer Aware de Position pour la Détection Dense à Multiples Étiquettes d'Actions
PAT : Transformer Aware de Position pour la Détection Dense à Multiples Étiquettes d'Actions
Faegheh Sardari Armin Mustafa Philip J. B. Jackson Adrian Hilton
Résumé
Nous présentons PAT, un réseau fondé sur les transformateurs, qui apprend des dépendances temporelles complexes entre actions co-occurrentes dans une vidéo en exploitant des caractéristiques temporelles à plusieurs échelles. Dans les méthodes existantes, le mécanisme d'attention auto-associative des transformateurs perd l'information de position temporelle, qui est essentielle pour une détection robuste des actions. Pour remédier à ce problème, nous proposons (i) d'intégrer une encodage positionnel relatif dans le mécanisme d'attention auto-associative, et (ii) d'exploiter les relations temporelles à plusieurs échelles en concevant un nouveau réseau non hiérarchique, contrairement aux approches récentes basées sur les transformateurs qui utilisent une structure hiérarchique. Nous affirmons que l'association du mécanisme d'attention auto-associative avec plusieurs processus de sous-échantillonnage dans les approches hiérarchiques entraîne une perte accrue d'information de position. Nous évaluons la performance de notre approche proposée sur deux jeux de données de référence exigeants à étiquetage dense et multi-étiquettes, et montrons que PAT améliore les résultats actuels de l'état de l'art de 1,1 % et 0,6 % en mAP sur les jeux de données Charades et MultiTHUMOS, respectivement, atteignant ainsi de nouveaux records en mAP de 26,5 % et 44,6 %. Nous menons également des études d'ablation approfondies afin d'analyser l'impact de chaque composant du réseau proposé.