Classification hiérarchique des actions avec élagage de réseau

Les recherches sur la classification des actions humaines ont connu des progrès significatifs au cours des dernières années. La plupart des méthodes basées sur l'apprentissage profond visent à améliorer les performances en ajoutant davantage de composants au réseau. Nous proposons toutefois d'exploiter de manière plus efficace des mécanismes auxiliaires, tels que la classification hiérarchique, l'élagage du réseau (network pruning) et le prétraitement basé sur la structure squelettique, afin d'améliorer la robustesse et les performances du modèle. Nous évaluons l'efficacité de notre approche sur quatre jeux de données couramment utilisés : NTU RGB+D 60, NTU RGB+D 120, Northwestern-UCLA Multiview Action 3D et UTD Multimodal Human Action Dataset. Nos expériences montrent que notre méthode atteint des performances comparables ou supérieures sur l'ensemble des quatre jeux de données. En particulier, elle établit une nouvelle référence (baseline) pour NTU 120, le plus grand des quatre jeux de données. Nous menons également une analyse approfondie de notre méthode à l'aide de comparaisons étendues et d'études d'ablation.