Intégration de la segmentation humaine et du réseau de pose pour la reconnaissance d’actions humaines

Les squelettes humains et les séquences RGB sont deux modalités d’entrée largement utilisées pour la reconnaissance d’actions humaines. Toutefois, les squelettes manquent de caractéristiques d’apparence, tandis que les données couleur sont souvent affectées par de nombreuses informations redondantes. Pour remédier à ce problème, nous introduisons une nouvelle modalité : la carte de features de parsing humain, qui permet de conserver sélectivement les caractéristiques spatio-temporelles des différentes parties du corps, tout en filtrant les bruits liés aux vêtements, aux arrière-plans, etc. Nous proposons un réseau intégrant le parsing humain et la pose (IPP-Net) pour la reconnaissance d’actions, le premier à exploiter simultanément les squelettes et les cartes de features de parsing humain dans une approche à deux branches. La branche de pose humaine traite des représentations squelettiques compactes issues de différentes modalités via un réseau à convolution sur graphe afin de modéliser les caractéristiques de posture. Dans la branche de parsing humain, des caractéristiques multi-images des différentes parties du corps sont extraites à l’aide d’un détecteur et d’un parseur humain, puis apprises à l’aide d’un noyau convolutif. Une fusion tardive des deux branches est adoptée pour obtenir les prédictions finales, en tenant compte à la fois des points clés robustes et des caractéristiques sémantiques riches des parties du corps. Des expériences étendues sur les benchmarks NTU RGB+D et NTU RGB+D 120 confirment de manière cohérente l’efficacité du modèle IPP-Net proposé, qui surpasser les méthodes existantes de reconnaissance d’actions. Le code source est disponible publiquement à l’adresse suivante : https://github.com/liujf69/IPP-Net-Parsing.