Apprentissage de représentations forme-mouvement à partir d’un modèle spatio-temporel basé sur l’algèbre géométrique pour la reconnaissance d’actions basée sur les squelettes
La reconnaissance d’actions basée sur les squelettes est largement appliquée dans la surveillance vidéo intelligente et l’analyse du comportement humain. Les travaux antérieurs ont réussi à appliquer les réseaux de neurones convolutifs (CNN) pour apprendre les caractéristiques spatio-temporelles des séquences de squelettes. Toutefois, ces approches se concentrent uniquement sur les coordonnées des articulations isolées, négligeant ainsi les relations spatiales entre les articulations et n’apprenant les représentations du mouvement qu’implicitement. Pour résoudre ces limitations, nous proposons une méthode efficace pour extraire des représentations complètes à partir des séquences de squelettes en utilisant l’algèbre géométrique. Premièrement, un modèle spatio-temporel fondé sur une orientation frontale est construit afin de représenter la configuration spatiale et la dynamique temporelle des séquences de squelettes, offrant une robustesse face aux variations de vue. Ensuite, des représentations forme-mouvement, s’auto-complétant mutuellement, sont apprises pour décrire de manière complète les actions du squelette. Enfin, un modèle CNN multi-flots est employé pour extraire et fusionner des caractéristiques profondes issues de ces représentations forme-mouvement complémentaires. Les résultats expérimentaux sur les jeux de données NTU RGB+D et Northwestern-UCLA confirment de manière cohérente l’efficacité de notre méthode.