SA-DVAE : Amélioration de la reconnaissance d'actions basée sur le squelette en zero-shot par des autoencodeurs variationnels dissociés

Les méthodes actuelles de reconnaissance d'actions à partir de squelettes sans apprentissage supervisé (zero-shot) utilisent des réseaux de projection pour apprendre un espace latent partagé entre les caractéristiques squelettiques et les plongements sémantiques. L'imbalance inhérente aux jeux de données de reconnaissance d'actions, caractérisée par des séquences squelettiques variables mais des étiquettes de classe constantes, pose des défis significatifs pour l'alignement. Pour remédier à cette imbalance, nous proposons SA-DVAE -- Alignement Sémantique via Autoencodeurs Variationnels Dissociés (Disentangled Variational Autoencoders), une méthode qui adopte tout d'abord la dissociation des caractéristiques pour séparer les caractéristiques squelettiques en deux parties indépendantes : l'une liée à la sémantique et l'autre non liée, afin d'améliorer l'alignement entre les caractéristiques squelettiques et sémantiques. Nous mettons en œuvre cette idée au moyen d'un couple d'autoencodeurs variationnels spécifiques à chaque modalité, associés à une pénalité de correction totale. Nous menons des expériences sur trois jeux de données de référence : NTU RGB+D, NTU RGB+D 120 et PKU-MMD, et nos résultats expérimentaux montrent que SA-DVAE offre une meilleure performance par rapport aux méthodes existantes. Le code est disponible sur https://github.com/pha123661/SA-DVAE.