HyperAIHyperAI
il y a 2 mois

Explorer la modalité d'analyse humaine pour la reconnaissance d'actions

Liu, Jinfu ; Ding, Runwei ; Wen, Yuhang ; Dai, Nan ; Meng, Fanyang ; Zhao, Shen ; Liu, Mengyuan
Explorer la modalité d'analyse humaine pour la reconnaissance d'actions
Résumé

Les méthodes de reconnaissance d'actions basées sur des approches multimodales ont obtenu un grand succès en utilisant les modalités de pose et d'image RGB. Cependant, les séquences de squelettes manquent de détails sur l'apparence, tandis que les images RGB subissent des bruits parasites non pertinents en raison des limitations inhérentes à ces modalités. Pour remédier à cela, nous introduisons la carte de caractéristiques d'analyse humaine comme une nouvelle modalité, car elle peut retenir sélectivement les caractéristiques sémantiques efficaces des parties du corps tout en filtrant la plupart des bruits parasites non pertinents. Nous proposons un nouveau cadre à double branche appelé Ensemble Human Parsing and Pose Network (EPP-Net), qui est le premier à exploiter à la fois les modalités de squelette et d'analyse humaine pour la reconnaissance d'actions. La première branche, consacrée à la pose humaine, alimente un réseau de convolution graphique avec des squelettes robustes pour modéliser les caractéristiques de pose, tandis que la seconde branche, dédiée à l'analyse humaine, utilise également des cartes de caractéristiques d'analyse pour modéliser les caractéristiques d'analyse via des réseaux de neurones convolutifs. Les deux caractéristiques de haut niveau seront combinées efficacement par une stratégie de fusion tardive afin d'améliorer la reconnaissance d'actions. De nombreuses expériences menées sur les benchmarks NTU RGB+D et NTU RGB+D 120 ont constamment vérifié l'efficacité de notre EPP-Net proposé, qui surpassent les méthodes existantes de reconnaissance d'actions. Notre code est disponible à l'adresse suivante : https://github.com/liujf69/EPP-Net-Action.