Analyse en profondeur des caractéristiques multimodales pour la reconnaissance d'actions dans les vidéos RGB+D

La reconnaissance d'actions à partir de séquences unimodales en RGB ou en profondeur a été largement explorée récemment. Il est généralement admis que chacune de ces deux modalités possède des forces et des limites différentes pour la tâche de reconnaissance d'actions. Par conséquent, l'analyse des vidéos RGB+D peut nous aider à mieux étudier les propriétés complémentaires de ces deux types de modalités et à atteindre des niveaux de performance plus élevés. Dans cet article, nous proposons un nouveau réseau de factorisation de caractéristiques partagées et spécifiques basé sur un autoencodeur profond pour séparer les signaux multimodaux d'entrée en une hiérarchie de composants. De plus, en fonction de la structure des caractéristiques, une machine d'apprentissage de parcimonie structurée est proposée, qui utilise des normes mixtes pour appliquer une régularisation au sein des composants et une sélection de groupes entre eux afin d'améliorer les performances de classification. Nos résultats expérimentaux montrent l'efficacité de notre cadre d'analyse de caractéristiques intermodales en atteignant une précision à l'état de l'art pour la classification d'actions sur cinq jeux de données基准数据集 (benchmark datasets) difficiles.