Quo Vadis, Skeleton Action Recognition ?

Dans cet article, nous étudions les frontières actuelles et futures dans le domaine de la reconnaissance d’actions humaines basée sur les squelettes. Pour explorer la reconnaissance d’actions à partir de squelettes dans des environnements réels (« in the wild »), nous introduisons Skeletics-152, un sous-ensemble soigneusement sélectionné et annoté en pose 3D, extrait de vidéos RGB provenant du jeu de données Kinetics-700, un ensemble de données d’actions à grande échelle. Nous étendons notre étude à des actions hors contexte en introduisant Skeleton-Mimetics, un jeu de données dérivé du récent jeu de données Mimetics. Nous présentons également Metaphorics, un jeu de données comprenant des vidéos YouTube annotées selon un style de légende, tirées de la populaire activité sociale Dumb Charades ainsi que de performances de danse interprétatives. Nous évaluons les modèles d’état de l’art sur le jeu de données NTU-120 et fournissons une évaluation multi-niveaux des résultats. Les résultats obtenus en benchmarkant les meilleurs modèles sur NTU-120 sur les nouveaux jeux de données introduits mettent en évidence les défis et les écarts de domaine liés aux actions observées dans des environnements réels. Globalement, notre travail caractérise les forces et les limites des approches et jeux de données existants. Grâce aux jeux de données proposés, notre recherche ouvre de nouvelles perspectives pour la reconnaissance des actions humaines.