Reconnaissance de Gestes Basée sur le Squelette Utilisant Plusieurs Couches Pleinement Connexes avec des Caractéristiques de Signature de Trajectoire et un Module Transformers Temporel

La reconnaissance de gestes basée sur le squelette gagne en popularité en raison de ses nombreuses applications potentielles. Les principaux défis sont l'extraction de caractéristiques discriminantes et la conception du modèle de classification. Dans cet article, nous utilisons d'abord un descripteur de caractéristiques robuste, la signature de chemin (path signature, PS), et proposons trois caractéristiques PS pour représenter explicitement les caractéristiques spatiales et temporelles du mouvement, à savoir la signature de chemin spatiale (spatial path signature, S_PS), la signature de chemin temporelle (temporal path signature, T_PS) et la signature de chemin temporelle-spatiale (temporal spatial path signature, T_S_PS). En tenant compte de l'importance des mouvements fins des mains dans le geste, nous proposons un principe d'« attention sur la main » (attention on hand, AOH) pour définir les paires d'articulations pour la S_PS et sélectionner une articulation unique pour la T_PS. De plus, la méthode dyadique est utilisée pour extraire les caractéristiques T_PS et T_S_PS qui codent les dynamiques temporelles globales et locales du mouvement. Ensuite, sans utiliser une stratégie récurrente, le modèle de classification continue à faire face aux défis liés aux variations temporelles entre différentes séquences. Nous proposons un nouveau module transformateur temporel (temporal transformer module, TTM) capable de faire correspondre les images clés des séquences en apprenant le paramètre de décalage temporel pour chaque entrée. Il s'agit d'un module basé sur l'apprentissage qui peut être intégré dans une architecture neuronale standard. Enfin, nous concevons un réseau multi-flux basé sur des couches entièrement connectées pour traiter séparément les caractéristiques spatiales et temporelles avant de les fusionner pour obtenir le résultat final. Nous avons testé notre méthode sur trois jeux de données基准手势数据集,即ChaLearn 2016、ChaLearn 2013和MSRC-12。实验结果表明,我们在基于骨架的手势识别方面取得了最先进的性能,并且计算效率高。为了确保符合法语表达习惯,我将对最后一句进行调整:Nous avons testé notre méthode sur trois jeux de données de gestes standards : ChaLearn 2016, ChaLearn 2013 et MSRC-12. Les résultats expérimentaux montrent que nous atteignons des performances d'état de l'art en reconnaissance de gestes basée sur le squelette avec une efficacité computationnelle élevée.