Un cadre neuronal profond pour la reconnaissance continue de la langue des signes par apprentissage itératif

Ce travail développe un cadre de reconnaissance continue de la langue des signes (LS) basé sur des réseaux neuronaux profonds, capable de transcrire directement des vidéos de phrases en langage des signes en séquences d’étiquettes de gloss ordonnées. Les méthodes précédentes pour la reconnaissance continue de la LS s’appuyaient généralement sur des modèles de Markov cachés aux capacités limitées pour capturer l’information temporelle. À l’inverse, l’architecture proposée utilise des réseaux de neurones convolutifs profonds munis de couches de fusion temporelle empilées comme module d’extraction de caractéristiques, et des réseaux récurrents bidirectionnels comme module d’apprentissage de séquences. Nous proposons un processus d’optimisation itératif pour exploiter pleinement le potentiel de représentation des réseaux neuronaux profonds, même avec des données limitées. Nous entraînons d’abord le modèle de reconnaissance end-to-end afin d’obtenir une proposition d’alignement, puis utilisons cette proposition comme information de supervision forte pour ajuster directement le module d’extraction de caractéristiques. Ce processus d’entraînement peut être itéré pour améliorer progressivement les performances de reconnaissance. En outre, nous contribuons en explorant la fusion multimodale d’images RGB et de flux optique dans le contexte de la reconnaissance de la langue des signes. Notre méthode est évaluée sur deux bases de données exigeantes pour la reconnaissance de la LS, et dépasse l’état de l’art avec une amélioration relative de plus de 15 % sur chacune des deux bases.