HyperAIHyperAI
il y a 9 jours

C2SLR : Reconnaissance continue des langues des signes renforcée par la cohérence

{Brian Mak, Ronglai Zuo}
C2SLR : Reconnaissance continue des langues des signes renforcée par la cohérence
Résumé

La structure fondamentale de la plupart des modèles de reconnaissance continue de la langue des signes basés sur l'apprentissage profond (CSLR) repose sur un module visuel, un module séquentiel et un module d'alignement. Toutefois, ces architectures CSLR sont difficiles à entraîner de manière adéquate en se basant uniquement sur une perte de classification temporelle connexionniste. Dans ce travail, nous proposons deux contraintes auxiliaires visant à renforcer les architectures CSLR du point de vue de la cohérence. La première contrainte vise à améliorer le module visuel, qui est particulièrement sujet au problème d'entraînement insuffisant. En effet, étant donné que les langues des signes transmettent principalement l'information à travers les visages et les mains des signants, nous intégrons un module d'attention spatiale guidée par des points clés dans le module visuel afin de forcer celui-ci à se concentrer sur les régions informatives, assurant ainsi une cohérence d'attention spatiale. Néanmoins, renforcer uniquement le module visuel ne permet pas d'exploiter pleinement le potentiel de l'architecture. Motivés par le fait que les caractéristiques de sortie des modules visuel et séquentiel représentent la même phrase, nous introduisons une contrainte supplémentaire de cohérence d'embedding de phrase entre ces deux modules, afin d'améliorer ainsi la puissance représentationnelle des deux types de caractéristiques. Les résultats expérimentaux obtenus sur trois architectures représentatives confirment l'efficacité des deux contraintes. Plus remarquablement, en utilisant une architecture basée sur un transformateur, notre modèle atteint des performances de pointe ou compétitives sur trois benchmarks : PHOENIX-2014, PHOENIX-2014-T et CSL.