Le contexte compte : l'attention auto pour la reconnaissance des langues des signes

Cet article propose un réseau attentionnel pour la reconnaissance continue de la langue des signes. L’approche proposée exploite des flux de données co-indépendants afin de modéliser les modalités de la langue des signes. Ces différentes sources d’information peuvent partager une structure temporelle complexe entre elles. À cet effet, nous appliquons une mécanique d’attention afin de synchroniser ces flux et faciliter la capture des dépendances entrelacées entre les différents composants de la langue des signes. Bien que la langue des signes soit multi-canal, les formes de main représentent les entités centrales dans l’interprétation des signes. La compréhension du sens d’un signe dépend essentiellement de la reconnaissance des formes de main dans leur contexte approprié. En tenant compte de ce fait, nous utilisons le mécanisme d’attention pour agréger efficacement les caractéristiques des mains avec leur contexte spatio-temporel pertinent, afin d’améliorer la reconnaissance des signes. Nous avons constaté que cette approche permet au modèle d’identifier les composants essentiels de la langue des signes, centrés principalement sur la main dominante et les zones du visage. Nous évaluons notre modèle sur le jeu de données de référence RWTH-PHOENIX-Weather 2014, obtenant des résultats compétitifs.