HyperAIHyperAI
il y a 2 mois

Reconnaissance d'actions humaines basée sur le squelette avec des réseaux LSTM attentionnés à la contexte global

Jun Liu; Gang Wang; Ling-Yu Duan; Kamila Abdiyeva; Alex C. Kot
Reconnaissance d'actions humaines basée sur le squelette avec des réseaux LSTM attentionnés à la contexte global
Résumé

La reconnaissance des actions humaines dans les séquences de squelettes 3D a suscité beaucoup d'attention de la part de la recherche. Récemment, les réseaux de neurones à mémoire à court et long terme (LSTM) ont montré des performances prometteuses dans cette tâche grâce à leur capacité à modéliser les dépendances et les dynamiques dans les données séquentielles. Comme tous les joints squelettiques ne sont pas informatifs pour la reconnaissance des actions, et que les joints non pertinents apportent souvent du bruit qui peut dégrader les performances, il est nécessaire de porter une attention particulière aux joints informatifs. Cependant, le réseau LSTM original ne dispose pas d'une capacité d'attention explicite. Dans cet article, nous proposons une nouvelle classe de réseau LSTM, le LSTM avec attention globale au contexte (GCA-LSTM), pour la reconnaissance des actions basée sur le squelette. Ce réseau est capable de se concentrer sélectivement sur les joints informatifs dans chaque image de chaque séquence de squelette en utilisant une cellule de mémoire contextuelle globale. Pour améliorer encore davantage la capacité d'attention de notre réseau, nous introduisons également un mécanisme d'attention récurrente, qui permet d'améliorer progressivement les performances d'attention du réseau. De plus, nous proposons un schéma d'entraînement progressif afin d'entraîner efficacement notre réseau. Notre approche atteint des performances de pointe sur cinq jeux de données de référence difficiles pour la reconnaissance des actions basée sur le squelette.