HyperAIHyperAI
il y a 11 jours

UNIK : Un cadre unifié pour la reconnaissance d'actions basée sur les squelettes dans des scénarios du monde réel

Di Yang, Yaohui Wang, Antitza Dantcheva, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond
UNIK : Un cadre unifié pour la reconnaissance d'actions basée sur les squelettes dans des scénarios du monde réel
Résumé

La reconnaissance d’actions basée sur des données squelettiques a récemment suscité un intérêt croissant et connu des progrès significatifs. Les approches de pointe utilisant des réseaux de convolution sur graphes (GCN) parviennent efficacement à extraire des caractéristiques à partir des squelettes humains grâce à la topologie humaine prédéfinie. Malgré ces avancées, les méthodes fondées sur les GCN peinent à généraliser entre différents domaines, en particulier lorsque les structures topologiques humaines varient. Dans ce contexte, nous proposons UNIK, une nouvelle méthode de reconnaissance d’actions basée sur les squelettes, qui non seulement permet d’apprendre efficacement des caractéristiques spatio-temporelles sur des séquences squelettiques humaines, mais aussi de généraliser de manière robuste entre différents jeux de données. Cela est réalisé en apprenant une matrice de dépendance optimale à partir d’une distribution uniforme, via un mécanisme d’attention à plusieurs têtes. Par la suite, afin d’étudier la capacité de généralisation à travers les domaines dans des vidéos du monde réel, nous réévaluons les approches de pointe ainsi que la méthode proposée UNIK sur la base d’un nouveau jeu de données, Posetics. Ce dernier est construit à partir des vidéos Kinetics-400 par estimation, affinement et filtrage des poses. Nous fournissons une analyse de l’amélioration des performances sur des benchmarks plus petits après pré-entraînement sur Posetics pour la tâche de classification d’actions. Les résultats expérimentaux montrent que UNIK, pré-entraînée sur Posetics, se généralise efficacement et dépasse les méthodes de pointe lorsqu’elle est transférée vers quatre jeux de données cibles pour la classification d’actions : Toyota Smarthome, Penn Action, NTU-RGB+D 60 et NTU-RGB+D 120.