HyperAIHyperAI

Command Palette

Search for a command to run...

STAR-Transformer : Un modèle Transformer à attention croisée spatio-temporelle pour la reconnaissance d’actions humaines

Dasom Ahn Sangwon Kim Hyunsu Hong Byoung Chul Ko

Résumé

Dans la reconnaissance d’actions, bien que la combinaison de vidéos spatio-temporelles et de caractéristiques squelettiques puisse améliorer les performances de reconnaissance, elle nécessite un modèle distinct ainsi qu’un équilibre dans la représentation des caractéristiques pour les données multimodales. Pour résoudre ces problèmes, nous proposons STAR-transformer (Spatio-Temporal Aligned Representation transformer), une architecture capable de représenter efficacement deux types de caractéristiques multimodales sous la forme d’un vecteur identifiable. Initialement, à partir de la vidéo d’entrée et de la séquence squelettique, les trames vidéo sont converties en tokens globaux de grille, tandis que les squelettes sont transformés en tokens de carte de joints. Ces tokens sont ensuite agrégés en tokens multi-catégories avant d’être introduits dans le STAR-transformer. La couche d’encodeur STAR-transformer est composée d’un module d’attention auto-complète (FAttn) et d’un module d’attention spatio-temporelle en zigzag (ZAttn) nouvellement proposé. De même, le décodeur continu est constitué d’un module FAttn et d’un module d’attention spatio-temporelle binaire (BAttn) également proposé. STAR-transformer apprend une représentation multi-caractéristiques efficace des données spatio-temporelles en organisant de manière appropriée les paires de modules FAttn, ZAttn et BAttn. Les résultats expérimentaux sur les jeux de données Penn-Action, NTU RGB+D 60 et NTU RGB+D 120 démontrent que la méthode proposée atteint une amélioration prometteuse des performances par rapport aux méthodes de pointe précédentes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp