HyperAIHyperAI

Command Palette

Search for a command to run...

Prompts de description d’action générative pour la reconnaissance d’actions basée sur les squelettes

Wangmeng Xiang Chao Li Yuxuan Zhou Biao Wang Lei Zhang

Résumé

La reconnaissance d’actions basée sur les squelettes a récemment suscité un intérêt considérable. Les approches actuelles de reconnaissance d’actions basées sur les squelettes sont généralement formulées comme des tâches de classification one-hot, sans exploiter pleinement les relations sémantiques entre les actions. Par exemple, les actions « faire le signe de la victoire » et « pouce levé » sont deux gestes manuels dont la principale différence réside dans le mouvement des mains. Cette information est ignorée par le codage one-hot catégorique des classes d’actions, mais pourrait être mise en évidence à partir de descriptions textuelles des actions. Par conséquent, l’utilisation de descriptions d’actions pendant l’entraînement pourrait potentiellement améliorer l’apprentissage des représentations. Dans ce travail, nous proposons une méthode appelée Génération de descriptions d’actions (GAP) pour la reconnaissance d’actions basée sur les squelettes. Plus précisément, nous utilisons un modèle linguistique pré-entraîné à grande échelle comme moteur de connaissance afin de générer automatiquement des descriptions textuelles des mouvements des différentes parties du corps associés aux actions. Nous proposons ensuite un schéma d’entraînement multimodal, en exploitant le encodeur de texte pour générer des vecteurs de caractéristiques correspondant à chaque partie du corps, et en supervisant l’encodeur de squelette pour l’apprentissage des représentations d’actions. Les expériences montrent que notre méthode GAP obtient des améliorations significatives par rapport à divers modèles de référence, sans coût computationnel supplémentaire au moment de l’inférence. GAP atteint de nouveaux états de l’art sur des benchmarks populaires de reconnaissance d’actions basés sur les squelettes, notamment NTU RGB+D, NTU RGB+D 120 et NW-UCLA. Le code source est disponible à l’adresse suivante : https://github.com/MartinXM/GAP.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Prompts de description d’action générative pour la reconnaissance d’actions basée sur les squelettes | Articles | HyperAI