Représentation unifiée consciente des parties du langage et du squelette pour la reconnaissance d'actions en zero-shot

Bien que des progrès remarquables aient été réalisés dans la reconnaissance d'actions supervisée basée sur les squelettes, le défi de la reconnaissance à vue zéro reste relativement sous-exploité. Dans cet article, nous soutenons que s'appuyer uniquement sur l'alignement des sémantiques au niveau des étiquettes et des caractéristiques globales du squelette est insuffisant pour transférer efficacement des connaissances visuelles localement cohérentes des classes observées vers les classes inconnues. Pour remédier à cette limitation, nous introduisons la Représentation Unifiée Part-aware entre Langue et Squelette (PURLS) afin d'explorer l'alignement visuel-sémantique à différentes échelles, tant locales que globales. PURLS introduit un nouveau module de prompting et un module de partitionnement novateur pour générer des représentations textuelles et visuelles alignées à différents niveaux. Le premier module utilise un GPT-3 pré-entraîné pour inférer des descriptions raffinées des mouvements globaux et locaux (basés sur les parties du corps et les intervalles temporels) à partir des étiquettes d'action originales. Le second module emploie une stratégie d'échantillonnage adaptative pour regrouper les caractéristiques visuelles de tous les mouvements articulaires qui sont sémantiquement pertinents à une description donnée. Notre approche est évaluée sur diverses architectures squelette/langue et trois jeux de données à grande échelle, à savoir NTU-RGB+D 60, NTU-RGB+D 120 et un nouveau jeu de données curaté, Kinetics-skeleton 200. Les résultats mettent en lumière l'universalité et les performances supérieures de PURLS, surpassant les solutions précédentes basées sur les squelettes ainsi que les baselines standards d'autres domaines. Les codes sources peuvent être consultés à l'adresse suivante : https://github.com/azzh1/PURLS.