HyperAIHyperAI
il y a 9 jours

Reconnaissance de signes isolés à partir de vidéos RGB en utilisant le flux de posture et l'attention auto-associative

{Joni Dambre, Mieke Van Herreweghe, Mathieu De Coster}
Reconnaissance de signes isolés à partir de vidéos RGB en utilisant le flux de posture et l'attention auto-associative
Résumé

La reconnaissance automatique des langues des signes se situe à l’intersection du traitement du langage naturel (NLP) et de la vision par ordinateur. Les architectures de transformer, extrêmement performantes et fondées sur l’attention multi-têtes, émergent initialement du domaine du NLP. Le réseau Video Transformer (VTN) constitue une adaptation de ce concept aux tâches nécessitant une compréhension vidéo, telles que la reconnaissance d’actions. Toutefois, en raison de la quantité limitée de données étiquetées habituellement disponible pour l’entraînement de systèmes de reconnaissance automatique des langues des signes, le VTN ne parvient pas à atteindre tout son potentiel dans ce domaine. Dans ce travail, nous atténuons l’impact de cette limitation de données en extrayant automatiquement, à partir des vidéos de langue des signes, des informations utiles préalablement. Dans notre approche, divers types d’informations sont présentés à un VTN dans un cadre multi-modal : cela inclut les points clés de posture humaine par trame (extraits par OpenPose), afin de capturer les mouvements du corps, ainsi que des régions de main (hand crops) pour modéliser les formes des mains et leur évolution au fil du temps. Nous évaluons notre méthode sur le jeu de données récemment publié AUTSL, dédié à la reconnaissance de signes isolés, et obtenons une précision de 92,92 % sur l’ensemble de test en n’utilisant que des données RGB. À titre de comparaison, l’architecture VTN sans régions de main ni flux de posture atteint une précision de 82 %. Une analyse qualitative de notre modèle suggère un potentiel supplémentaire du mécanisme d’attention multi-têtes dans un cadre multi-modal pour la reconnaissance des langues des signes.