HyperAIHyperAI
il y a 9 jours

Reconnaissance continue de la langue des signes par alignement cross-modale des embeddings vidéo et texte dans un espace latent commun

{Petros Daras, DIMITRIOS KONSTANTINIDIS, Kosmas Dimitropoulos, Ilias Papastratis}
Résumé

La reconnaissance continue des langues des signes (CSLR) désigne le problème difficile de reconnaître les glosses linguistiques et leurs bornes temporelles à partir de séquences vidéo faiblement annotées. Les méthodes précédentes se concentrent principalement sur l'extraction des caractéristiques visuelles, tout en négligeant les informations textuelles et en échouant à modéliser efficacement les dépendances intra-glosses. Dans ce travail, une approche d'apprentissage cross-modale est proposée afin d'exploiter les informations textuelles pour améliorer la reconnaissance visuelle de la langue des signes. À cette fin, deux réseaux d'encodage puissants sont initialement utilisés pour générer des représentations vectorielles (embeddings) à partir des vidéos et du texte, avant leur projection et leur alignement dans une représentation latente commune. L'objectif de l'alignement cross-modale proposé est de modéliser les dépendances intra-glosses et de produire des représentations latentes basées sur la vidéo plus descriptives pour la CSLR. La méthode proposée est entraînée de manière conjointe à partir des représentations latentes vidéo et textuelles. Enfin, les représentations latentes vidéo alignées sont classées à l’aide d’un décodeur entraîné conjointement. Des expériences étendues menées sur trois bases de données bien connues de reconnaissance des langues des signes, ainsi qu’une comparaison avec les approches de pointe, démontrent le grand potentiel de l’approche proposée.