HyperAIHyperAI
il y a 9 jours

Transformateur basé sur la pose des signes pour la reconnaissance des langues des signes au niveau des mots

{Marek Hrúz, Matyáš Boháček}
Transformateur basé sur la pose des signes pour la reconnaissance des langues des signes au niveau des mots
Résumé

Dans cet article, nous présentons un système de reconnaissance de la langue des signes au niveau des mots basé sur le modèle Transformer. Nous visons une solution à faible coût computationnel, car nous percevons un grand potentiel d’utilisation d’un tel système sur des dispositifs portables. Notre approche repose sur l’estimation de la posture du corps humain sous la forme de positions de points de repère 2D. Nous introduisons un schéma robuste de normalisation de la posture qui prend en compte l’espace de signalement et traite les postures des mains dans un système de coordonnées local indépendant de la posture du corps. Nous démontrons expérimentalement l’impact significatif de cette normalisation sur la précision de notre système proposé. Nous introduisons également plusieurs augmentations de la posture du corps qui améliorent davantage la précision, notamment une nouvelle augmentation par rotation séquentielle des articulations. Grâce à l’ensemble des composants mis en place, nous atteignons des résultats de pointe en termes de précision top-1 sur les jeux de données WLASL et LSA64. Pour WLASL, nous parvenons à reconnaître avec succès 63,18 % des enregistrements de signes dans le sous-ensemble de 100 gloss, soit une amélioration relative de 5 % par rapport à l’état de l’art précédent. Pour le sous-ensemble de 300 gloss, nous obtenons un taux de reconnaissance de 43,78 %, soit une amélioration relative de 3,8 %. Sur le jeu de données LSA64, nous rapportons une précision de reconnaissance en test de 100 %.