SignBERT : Pré-entraînement de représentations conscientes du modèle de main pour la reconnaissance des langues des signes

Le geste manuel joue un rôle fondamental dans la langue des signes. Les méthodes actuelles de reconnaissance des langues des signes (SLR) basées sur l’apprentissage profond peuvent souffrir d’une interprétabilité insuffisante et d’un surajustement en raison de la limitation des sources de données signées. Dans cet article, nous introduisons le premier modèle SignBERT pré-entraînable en mode auto-supervisé, intégrant une connaissance a priori sur la main pour la SLR. SignBERT considère la posture de la main comme un token visuel, extrait à partir d’un extracteur de pose disponible en libre-service. Ces tokens visuels sont ensuite enrichis par des informations relatives à l’état du geste, au facteur temporel et à la chiralité de la main. Afin d’exploiter pleinement les sources de données signées disponibles, SignBERT effectue d’abord un pré-entraînement auto-supervisé par masquage et reconstruction des tokens visuels. En combinaison avec plusieurs stratégies de masquage, nous proposons une approche consciente du modèle pour intégrer de manière efficace la connaissance a priori sur la main, afin de mieux modéliser le contexte hiérarchique le long de la séquence gestuelle. Ensuite, en ajoutant une tête de prédiction, SignBERT est finement ajusté pour effectuer la tâche de SLR en amont. Pour valider l’efficacité de notre méthode sur la SLR, nous menons des expériences approfondies sur quatre jeux de données publics de référence : NMFs-CSL, SLR500, MSASL et WLASL. Les résultats expérimentaux démontrent l’efficacité à la fois de l’apprentissage auto-supervisé et de l’intégration de la connaissance a priori sur la main. En outre, nous atteignons des performances de pointe sur tous les benchmarks, avec une amélioration notable.