HyperAIHyperAI
il y a 18 jours

Poselet Key-Framing : un modèle pour la reconnaissance d’activités humaines

{Michalis Raptis, Leonid Sigal}
Poselet Key-Framing : un modèle pour la reconnaissance d’activités humaines
Résumé

Dans cet article, nous proposons un nouveau modèle pour la reconnaissance d’actions humaines. Une action est modélisée comme une séquence très creuse de collections de clichés clés discriminatifs locaux dans le temps, correspondant à des postures partielles de l’acteur (ou des acteurs), représentant des états clés dans la séquence d’action. Nous formulons l’apprentissage des clichés clés dans un cadre discriminatif à marge maximale, en traitant les clichés clés comme des variables latentes. Cette approche permet d’apprendre (de manière conjointe) un ensemble de clichés clés les plus discriminatifs tout en capturant le contexte temporel local entre eux. Les clichés clés sont encodés à l’aide d’une représentation inspirée des poselets, spatialement localisable, combinant des descripteurs HoG (Histogram of Oriented Gradients) et des dictionnaires de mots (BoW – Bag of Words), appris à partir d’annotations faibles. Nous exploitons une formulation de SVM structuré afin d’aligner nos composants et d’extraire des exemples négatifs difficiles, ce qui améliore la performance de localisation spatio-temporelle. Le modèle obtenu permet une localisation spatio-temporelle efficace et est robuste aux trames manquantes ou aux observations partielles. Nous démontrons une performance de classification compétitive avec l’état de l’art sur le jeu de données de référence UT-Interaction, et illustrons que notre modèle surpasse les méthodes antérieures dans un cadre de traitement en flux en ligne.