Mouvements de poselets : une représentation discriminative et interprétable du mouvement squelettique pour la reconnaissance d’actions

Étant donné une vidéo ou une série temporelle de données squelettiques, les systèmes de reconnaissance d’actions effectuent une classification à l’aide de signaux tels que le mouvement, l’apparence et la posture. Au cours de la dernière décennie, les actions ont été modélisées à l’aide de représentations de caractéristiques de bas niveau, telles que le Bag of Features. Des travaux plus récents ont montré que des représentations de niveau intermédiaire, qui modélisent les mouvements des parties du corps (par exemple, le mouvement vers l’avant de la main), peuvent s’avérer très efficaces. Toutefois, ces caractéristiques de niveau intermédiaire sont généralement conçues manuellement, et le dictionnaire des caractéristiques représentatives est appris à l’aide de heuristiques ad hoc. Bien que des méthodes d’apprentissage automatique de caractéristiques, telles que l’apprentissage parcimonieux supervisé du dictionnaire ou les réseaux neuronaux, puissent être appliquées pour apprendre conjointement les représentations de caractéristiques et les classificateurs d’actions, les caractéristiques résultantes sont souvent peu interprétables. À l’inverse, notre objectif est de développer un cadre fondé sur des principes pour l’apprentissage de caractéristiques, permettant d’obtenir des motifs de mouvement squelettique discriminants et interprétables pour la reconnaissance d’actions. À cet effet, nous proposons une nouvelle caractéristique basée sur le mouvement des parties du corps, appelée Moving Poselet, qui correspond à une configuration spécifique des parties du corps en cours d’un mouvement particulier. Nous proposons également un algorithme simple permettant d’apprendre conjointement les Moving Poselets et les classificateurs d’actions. Des expériences menées sur les jeux de données MSR Action3D, MSR DailyActivity3D et Berkeley MHAD montrent que notre modèle à deux couches surpasse d’autres modèles à deux couches utilisant des caractéristiques conçues manuellement, tout en atteignant des performances comparables à celles des modèles récents à plusieurs couches de Réseaux de Récurrence Hiérarchiques (HRNN), qui utilisent plusieurs couches de réseaux récurrents pour modéliser la hiérarchie du corps humain.