Prompts de description d’action générative pour la reconnaissance d’actions basée sur les squelettes

La reconnaissance d’actions basée sur les squelettes a récemment suscité un intérêt considérable. Les approches actuelles de reconnaissance d’actions basées sur les squelettes sont généralement formulées comme des tâches de classification one-hot, sans exploiter pleinement les relations sémantiques entre les actions. Par exemple, les actions « faire le signe de la victoire » et « pouce levé » sont deux gestes manuels dont la principale différence réside dans le mouvement des mains. Cette information est ignorée par le codage one-hot catégorique des classes d’actions, mais pourrait être mise en évidence à partir de descriptions textuelles des actions. Par conséquent, l’utilisation de descriptions d’actions pendant l’entraînement pourrait potentiellement améliorer l’apprentissage des représentations. Dans ce travail, nous proposons une méthode appelée Génération de descriptions d’actions (GAP) pour la reconnaissance d’actions basée sur les squelettes. Plus précisément, nous utilisons un modèle linguistique pré-entraîné à grande échelle comme moteur de connaissance afin de générer automatiquement des descriptions textuelles des mouvements des différentes parties du corps associés aux actions. Nous proposons ensuite un schéma d’entraînement multimodal, en exploitant le encodeur de texte pour générer des vecteurs de caractéristiques correspondant à chaque partie du corps, et en supervisant l’encodeur de squelette pour l’apprentissage des représentations d’actions. Les expériences montrent que notre méthode GAP obtient des améliorations significatives par rapport à divers modèles de référence, sans coût computationnel supplémentaire au moment de l’inférence. GAP atteint de nouveaux états de l’art sur des benchmarks populaires de reconnaissance d’actions basés sur les squelettes, notamment NTU RGB+D, NTU RGB+D 120 et NW-UCLA. Le code source est disponible à l’adresse suivante : https://github.com/MartinXM/GAP.