Plongements Génératifs Guidés Syntaxiquement pour la Reconnaissance d'Actions de Squelette en Zero-Shot

Nous présentons SynSE, une nouvelle approche générative guidée syntaxiquement pour l'apprentissage par zéro exemple (Zero-Shot Learning, ZSL). Notre méthode de bout en bout apprend des espaces d'embedding génératifs progressivement affinés, contraints à la fois au sein et entre les modalités impliquées (visuelle, langagière). Les contraintes inter-modales sont définies entre l'embedding de séquence d'actions et les embeddings des mots étiquetés par leurs catégories grammaticales (Parts of Speech, PoS) dans la description correspondante de l'action. Nous déployons SynSE pour la tâche de reconnaissance de séquences d'actions basée sur le squelette. Nos choix de conception permettent à SynSE de généraliser compositionnellement, c'est-à-dire reconnaître des séquences dont les descriptions contiennent des mots non rencontrés lors de l'entraînement. Nous étendons également notre approche au problème plus complexe de l'apprentissage par zéro exemple généralisé (Generalized Zero-Shot Learning, GZSL) grâce à un mécanisme de modulation basé sur la confiance. Nous sommes les premiers à présenter des résultats de reconnaissance d'actions squelettiques par zéro exemple sur les grands ensembles de données NTU-60 et NTU-120 avec plusieurs partitions. Nos résultats montrent que SynSE offre des performances d'état de l'art dans les configurations ZSL et GZSL comparées à des lignes de base solides sur les ensembles de données NTU-60 et NTU-120. Le code source et les modèles pré-entraînés sont disponibles à l'adresse suivante : https://github.com/skelemoa/synse-zsl