PoTion : Représentation de Pose et de Mouvement pour la Reconnaissance d'Actions

La plupart des méthodes les plus avancées pour la reconnaissance d’actions reposent sur une architecture à deux flux, qui traite indépendamment l’apparence et le mouvement. Dans cet article, nous affirmons qu’une approche conjointe de ces deux aspects permet d’extraire des informations riches pour la reconnaissance d’actions. Nous proposons une nouvelle représentation qui encode de manière élégante le mouvement de certains points clés sémantiques. Nous utilisons les articulations humaines comme ces points clés et désignons notre représentation de mouvement de posture par PoTion (Pose moTion). Plus précisément, nous appliquons d’abord un estimateur d’attitude humaine de pointe, puis extrayons les cartes de chaleur correspondant aux articulations humaines dans chaque trame. Notre représentation PoTion est obtenue en agrégant temporellement ces cartes de probabilité. Cette agrégation est réalisée en colorisant chaque carte en fonction du temps relatif de la trame dans la séquence vidéo, puis en les sommant. Cette représentation de taille fixe, décrivant l’ensemble d’une séquence vidéo, est particulièrement adaptée à la classification d’actions à l’aide d’un réseau neuronal convolutif léger. Nos évaluations expérimentales montrent que PoTion surpassent les autres représentations d’attitude de pointe. De plus, elle s’avère complémentaire aux flux d’apparence et de mouvement classiques. En combinant PoTion avec l’approche récente à deux flux I3D [5], nous atteignons des performances de pointe sur les jeux de données JHMDB, HMDB et UCF101.