Spatio-Temporal LSTM avec des Portes de Confiance pour la Reconnaissance d'Actions Humaines en 3D

La reconnaissance d'actions en 3D – analyse des actions humaines basée sur des données de squelette 3D – gagne en popularité récemment grâce à sa concision, sa robustesse et sa représentation indépendante de la vue. Les tentatives récentes pour résoudre ce problème ont suggéré le développement de méthodes d'apprentissage basées sur les RNN (réseaux de neurones récurrents) afin de modéliser la dépendance contextuelle dans le domaine temporel. Dans cet article, nous étendons cette idée aux domaines spatio-temporels pour analyser les sources cachées d'information liée aux actions au sein des données d'entrée simultanément dans les deux domaines. Inspirés par la structure graphique du squelette humain, nous proposons une méthode plus puissante basée sur une structure arborescente pour parcourir ces données. Pour traiter le bruit et l'occlusion présents dans les données de squelette 3D, nous introduisons un nouveau mécanisme de porte au sein de l'LSTM (Long Short-Term Memory) afin d'apprendre la fiabilité des données d'entrée séquentielles et d'ajuster en conséquence leur impact sur la mise à jour des informations contextuelles à long terme stockées dans la cellule mémoire. Notre méthode atteint des performances de pointe sur 4 jeux de données de référence difficiles pour l'analyse des actions humaines en 3D.