HyperAIHyperAI
il y a 9 jours

Transformateur Multimodal Localement Amélioré pour la Reconnaissance Continue de la Langue des Signes

{Gerasimos Potamianos, Katerina Papadimitriou}
Résumé

Dans cet article, nous proposons une nouvelle approche fondée sur les Transformers pour la reconnaissance continue des langues des signes (CSLR) à partir de vidéos, visant à pallier les limites des Transformers traditionnels dans l’apprentissage du contexte sémantique local des signes. Plus précisément, l’approche proposée repose sur deux composants distincts : (a) un module RNN basé sur fenêtres, conçu pour capturer le contexte temporel local, et (b) un encodeur Transformer amélioré par une modélisation locale via un biais gaussien et des informations de position relative, ainsi que par une modélisation de la structure globale grâce à une attention multi-têtes. Pour renforcer davantage les performances du modèle, nous avons conçu un cadre multimodal qui applique la méthode proposée aux deux flux visuels — apparence et mouvement — en alignant leurs sorties postérieures via une technique de guidage basée sur CTC. En outre, nous atteignons une alignement entre les caractéristiques visuelles et les séquences de gloss en intégrant une perte de distillation de connaissance. Une évaluation expérimentale sur deux jeux de données populaires allemands pour la CSLR démontre l’efficacité supérieure de notre modèle.