Informations détaillées sur les côtés guidant des dual-prompts pour la reconnaissance d'actions squelettiques en zero-shot

La reconnaissance d'actions inédites basée sur le squelette vise à identifier des actions humaines inconnues en s'appuyant sur les a priori appris à partir des actions squelettiques connues et un espace de descripteurs sémantiques partagé par les catégories connues et inconnues. Cependant, les travaux précédents se concentrent sur l'établissement de ponts entre l'espace de représentation squelettique connu et l'espace de descriptions sémantiques au niveau grossier pour reconnaître des catégories d'actions inconnues, ignorant ainsi l'alignement fin de ces deux espaces, ce qui entraîne une performance sous-optimale dans la distinction de catégories d'actions à forte similarité. Pour relever ces défis, nous proposons une nouvelle méthode basée sur l'apprentissage avec informations latérales et prompts doubles pour la reconnaissance d'actions inédites basée sur le squelette (STAR) au niveau fin. Plus précisément, 1) nous décomposons le squelette en plusieurs parties selon sa structure topologique et introduisons des informations latérales concernant les descriptions multi-parties des mouvements du corps humain pour aligner le squelette et l'espace sémantique au niveau fin ; 2) nous concevons des prompts visuels-attributs et sémantiques-parties pour améliorer respectivement la compacité intra-classe dans l'espace squelettique et la séparabilité inter-classe dans l'espace sémantique, afin de distinguer les actions à forte similarité. De nombreuses expériences montrent que notre méthode atteint des performances de pointe dans les configurations ZSL (Zero-Shot Learning) et GZSL (Generalized Zero-Shot Learning) sur les jeux de données NTU RGB+D, NTU RGB+D 120 et PKU-MMD.