Amélioration de la reconnaissance continue des langues des signes grâce à des contraintes de cohérence et à la suppression des signants

La plupart des modèles de reconnaissance continue de la langue des signes basés sur l’apprentissage profond (CSLR) partagent une architecture fondamentale composée d’un module visuel, d’un module séquentiel et d’un module d’alignement. Toutefois, en raison du nombre limité d’échantillons d’entraînement, une fonction de perte de classification temporelle connexionniste (CTC) ne parvient pas toujours à entraîner suffisamment ces architectures de CSLR. Dans ce travail, nous proposons trois tâches auxiliaires visant à renforcer ces architectures. La première tâche vise à améliorer le module visuel, particulièrement sensible au problème du manque d’échantillons d’entraînement, en s’appuyant sur le principe de cohérence. En effet, puisque l’information linguistique dans la langue des signes est principalement contenue dans les expressions faciales et les mouvements des mains des signants, nous avons conçu un module d’attention spatiale guidée par des points clés afin de forcer le module visuel à se concentrer sur les régions informatives, assurant ainsi une cohérence d’attention spatiale. Deuxièmement, en observant que les caractéristiques de sortie des modules visuel et séquentiel représentent la même phrase, nous imposons une contrainte de cohérence d’encodage de phrase entre ces deux modules afin d’améliorer davantage la puissance représentationnelle des deux types de caractéristiques. Nous désignons par « CSLR renforcé par la cohérence » le modèle CSLR entraîné avec ces tâches auxiliaires, qui obtient de très bons résultats sur des jeux de données dépendants du signant, où tous les signants apparaissent à la fois pendant l’entraînement et le test. Pour améliorer sa robustesse dans le cadre indépendant du signant, nous proposons également un module de suppression de signant basé sur le décloisonnement des caractéristiques, permettant d’éliminer les informations spécifiques au signant de l’architecture. Des études d’ablation étendues sont menées afin de valider l’efficacité de ces tâches auxiliaires. Plus remarquablement, avec une architecture fondamentale basée sur un transformateur, notre modèle atteint des performances de pointe ou compétitives sur cinq benchmarks : PHOENIX-2014, PHOENIX-2014-T, PHOENIX-2014-SI, CSL et CSL-Daily. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/2000ZRL/LCSA_C2SLR_SRM.