Command Palette
Search for a command to run...
Analyse approfondie des caractéristiques multimodales pour la reconnaissance d'actions dans les vidéos RGB+D
Analyse approfondie des caractéristiques multimodales pour la reconnaissance d'actions dans les vidéos RGB+D
Shahroudy Amir Ng Tian-Tsong Gong Yihong Wang Gang
Résumé
La reconnaissance d’actions à modalité unique sur des séquences RGB ou profondeur a récemment fait l’objet d’une étude approfondie. Il est généralement admis que chacune de ces deux modalités présente des forces et des limites différentes pour la tâche de reconnaissance d’actions. Par conséquent, l’analyse des vidéos RGB+D permet de mieux étudier les propriétés complémentaires de ces deux types de modalités et d’atteindre un niveau de performance supérieur. Dans cet article, nous proposons un nouveau réseau basé sur un autoencodeur profond, dénommé réseau de factorisation hiérarchique de caractéristiques partagées et spécifiques, permettant de séparer les signaux multimodaux d’entrée en une hiérarchie de composants. Par ailleurs, à partir de la structure des caractéristiques, nous introduisons une machine d’apprentissage à sparsité structurée qui utilise des normes mixtes pour appliquer une régularisation à l’intérieur des composants et une sélection par groupes entre eux, afin d’améliorer la performance de classification. Nos résultats expérimentaux démontrent l’efficacité de notre cadre d’analyse des caractéristiques transmodales, en obtenant une précision de classification d’actions parmi les meilleures à ce jour sur cinq jeux de données standard exigeants.