Réseau de neurones récurrent hiérarchique pour la reconnaissance d'actions basée sur les squelettes
Les actions humaines peuvent être représentées par les trajectoires des articulations du squelette. Les méthodes traditionnelles modélisent généralement la structure spatiale et la dynamique temporelle du squelette humain à l’aide de caractéristiques conçues manuellement, puis reconnaissent les actions humaines à l’aide de classificateurs soigneusement conçus. Dans cet article, en considérant que les réseaux de neurones récurrents (RNN) sont particulièrement efficaces pour modéliser les informations contextuelles à long terme dans les séquences temporelles, nous proposons un réseau RNN hiérarchique end-to-end pour la reconnaissance d’actions basée sur le squelette. Au lieu d’injecter l’ensemble du squelette comme entrée, nous divisons le squelette humain en cinq parties selon la structure physique du corps humain, puis alimentons chacune de ces parties séparément dans cinq sous-réseaux. À mesure que le nombre de couches augmente, les représentations extraites par les sous-réseaux sont fusionnées de manière hiérarchique pour devenir les entrées des couches supérieures. Les représentations finales des séquences de squelette sont ensuite transmises à un perceptron à une seule couche, dont la sortie accumulée dans le temps constitue la décision finale. Nous comparons notre modèle avec cinq autres architectures profondes à base de RNN dérivées de notre proposition afin de valider l’efficacité du réseau proposé, et comparons également avec plusieurs autres méthodes sur trois jeux de données publiques. Les résultats expérimentaux montrent que notre modèle atteint des performances de pointe tout en offrant une efficacité computationnelle élevée.