HyperAIHyperAI
il y a 9 jours

Reconnaissance des langues des signes par des convolutions 3D déformables et des réseaux de convolution de graphe modulés

{Gerasimos Potamianos, Katerina Papadimitriou}
Résumé

La reconnaissance automatique des langues des signes (SLR) demeure un défi important, notamment lorsqu’elle repose uniquement sur des vidéos RGB (sans données de profondeur ni entrées spécifiques via des gants), et dans un cadre indépendant du signeur (SI), en raison des variations inter-individuelles dans la production des signes. Dans cet article, nous abordons la SLR isolée en cadre SI à partir de vidéos RGB, en proposant un cadre novateur basé sur l’apprentissage profond, qui exploite à la fois des informations d’apparence multi-modales et des données basées sur le squelette. Plus précisément, nous introduisons pour la première fois dans le domaine de la SLR trois composants : (i) une version modifiée du réseau ResNet2+1D, conçue pour capturer les informations d’apparence liées au signe, où les convolutions spatiales et temporelles sont remplacées par leurs équivalents déformables, permettant ainsi une modélisation spatiale efficace et une adaptation à la motion sensible aux mouvements ; (ii) un nouveau réseau de convolution graphique spatio-temporel (ST-GCN), intégrant une variante de GCN qui inclut une modulation des poids et des affinités pour modéliser des corrélations diverses entre les différentes articulations, allant au-delà de la structure anatomique physique du squelette humain, suivi d’une couche d’attention auto-attentionnelle et d’une convolution temporelle ; (iii) le régresseur 3D « PIXIE » pour la posture et la forme humaines, utilisé pour générer une paramétrisation des rotations des joints en 3D, servant à la construction du graphe du ST-GCN. Les deux flux — basé sur l’apparence et basé sur le squelette — sont combinés dans le système proposé, qui est évalué sur deux jeux de données de signes isolés, l’un en turc et l’autre en grec. Notre système dépasse l’état de l’art sur le second jeu de données, atteignant une réduction relative du taux d’erreur de 53 % (soit une réduction absolue de 2,45 %), tandis qu’il se compare favorablement au meilleur système rapporté sur le premier.