il y a 17 jours

STAR-Transformer : Un modèle Transformer à attention croisée spatio-temporelle pour la reconnaissance d’actions humaines

Dasom Ahn, Sangwon Kim, Hyunsu Hong, Byoung Chul Ko

Résumé

Dans la reconnaissance d’actions, bien que la combinaison de vidéos spatio-temporelles et de caractéristiques squelettiques puisse améliorer les performances de reconnaissance, elle nécessite un modèle distinct ainsi qu’un équilibre dans la représentation des caractéristiques pour les données multimodales. Pour résoudre ces problèmes, nous proposons STAR-transformer (Spatio-Temporal Aligned Representation transformer), une architecture capable de représenter efficacement deux types de caractéristiques multimodales sous la forme d’un vecteur identifiable. Initialement, à partir de la vidéo d’entrée et de la séquence squelettique, les trames vidéo sont converties en tokens globaux de grille, tandis que les squelettes sont transformés en tokens de carte de joints. Ces tokens sont ensuite agrégés en tokens multi-catégories avant d’être introduits dans le STAR-transformer. La couche d’encodeur STAR-transformer est composée d’un module d’attention auto-complète (FAttn) et d’un module d’attention spatio-temporelle en zigzag (ZAttn) nouvellement proposé. De même, le décodeur continu est constitué d’un module FAttn et d’un module d’attention spatio-temporelle binaire (BAttn) également proposé. STAR-transformer apprend une représentation multi-caractéristiques efficace des données spatio-temporelles en organisant de manière appropriée les paires de modules FAttn, ZAttn et BAttn. Les résultats expérimentaux sur les jeux de données Penn-Action, NTU RGB+D 60 et NTU RGB+D 120 démontrent que la méthode proposée atteint une amélioration prometteuse des performances par rapport aux méthodes de pointe précédentes.