Réseau d'attention sur les points clés à flux multiples pour la reconnaissance et la traduction des langues des signes

La langue des signes constitue un moyen de communication non vocal, transmettant des informations et des significations à travers des gestes, des expressions faciales et des mouvements corporels. La majorité des approches actuelles de reconnaissance (SLR) et de traduction de la langue des signes reposent sur des entrées vidéo RGB, qui sont sensibles aux variations de fond. L’utilisation d’une stratégie basée sur les points clés permet non seulement de réduire l’impact des modifications du fond, mais aussi de diminuer considérablement les exigences computationnelles du modèle. Toutefois, les méthodes actuelles basées sur les points clés ne parviennent pas à exploiter pleinement les connaissances implicites intégrées dans les séquences de points clés. Pour relever ce défi, notre inspiration provient du mécanisme cognitif humain, qui interprète la langue des signes en analysant les interactions entre les configurations gestuelles et les éléments complémentaires. Nous proposons un réseau d’attention à plusieurs flux basé sur les points clés, afin de modéliser une séquence de points clés générée par un estimateur de points clés facilement disponible. Afin de favoriser l’interaction entre les différents flux, nous explorons diverses méthodologies, telles que des stratégies de fusion des points clés, une fusion des têtes d’attention et une auto-distillation. Le cadre résultant est désigné comme MSKA-SLR, qui est étendu à un modèle de traduction de la langue des signes (SLT) par l’ajout simple d’un réseau de traduction supplémentaire. Nous menons des expériences approfondies sur des benchmarks bien établis tels que Phoenix-2014, Phoenix-2014T et CSL-Daily afin de démontrer l’efficacité de notre approche. Notamment, nous avons atteint une nouvelle performance de pointe dans la tâche de traduction de la langue des signes sur Phoenix-2014T. Le code et les modèles sont disponibles à l’adresse suivante : https://github.com/sutwangyan/MSKA.