HyperAIHyperAI
il y a 2 mois

Apprentissage Multimodal et Multipartite pour la Reconnaissance d'Actions dans les Vidéos en Profondeur

Shahroudy, Amir ; Wang, Gang ; Ng, Tian-Tsong ; Yang, Qingxiong
Apprentissage Multimodal et Multipartite pour la Reconnaissance d'Actions dans les Vidéos en Profondeur
Résumé

La nature articulée et complexe des actions humaines rend la tâche de reconnaissance d'actions difficile. Une approche pour gérer cette complexité consiste à diviser les actions en fonction de la cinématique des parties du corps et à les analyser sur la base de ces descripteurs partiels. Nous proposons une méthode d'apprentissage basée sur une régression parcimonieuse conjointe qui utilise la parcimonie structurée pour modéliser chaque action comme une combinaison de caractéristiques multimodales issues d'un ensemble parcimonieux de parties du corps. Pour représenter la dynamique et l'apparence des parties, nous utilisons un ensemble hétérogène de caractéristiques basées sur la profondeur et le squelette. La structure appropriée des caractéristiques multimodales et multipartites est formulée dans le cadre d'apprentissage grâce à la norme mixte hiérarchique proposée, afin de régulariser les caractéristiques structurées de chaque partie et d'appliquer la parcimonie entre elles, favorisant ainsi une sélection de caractéristiques par groupe. Nos résultats expérimentaux mettent en évidence l'efficacité de notre méthode d'apprentissage proposée, qui surpassent les autres méthodes dans les trois jeux de données testés, atteignant même une précision parfaite dans l'un d'eux.

Apprentissage Multimodal et Multipartite pour la Reconnaissance d'Actions dans les Vidéos en Profondeur | Articles de recherche récents | HyperAI