Command Palette
Search for a command to run...
Apprentissage multimodal multipartite pour la reconnaissance d'actions dans les vidéos en profondeur
Apprentissage multimodal multipartite pour la reconnaissance d'actions dans les vidéos en profondeur
Shahroudy Amir Wang Gang Ng Tian-Tsong Yang Qingxiong
Résumé
La nature articulée et complexe des actions humaines rend la reconnaissance d’actions particulièrement difficile. Une approche permettant de gérer cette complexité consiste à décomposer les actions en cinématiques des différentes parties du corps, puis à analyser les actions à partir de descripteurs partiels. Nous proposons une méthode d’apprentissage basée sur une régression parcimonieuse conjointe, qui exploite la parcimonie structurée pour modéliser chaque action comme une combinaison de caractéristiques multimodales provenant d’un ensemble restreint de parties corporelles. Pour représenter la dynamique et l’apparence de ces parties, nous utilisons un ensemble hétérogène de caractéristiques basées sur la profondeur et sur la structure squelettique. La structure appropriée des caractéristiques multipartites multimodales est intégrée dans le cadre d’apprentissage grâce à une norme hiérarchique mixte proposée, qui régularise les caractéristiques structurées de chaque partie tout en imposant une parcimonie entre elles, favorisant ainsi une sélection de groupes de caractéristiques. Nos résultats expérimentaux démontrent l’efficacité de la méthode proposée, qui surpasse les autres approches sur les trois jeux de données testés, atteignant même une précision parfaite sur l’un d’entre eux.