PSUMNet : des flux de parties modaux unifiés sont tout ce qu'il faut pour une reconnaissance efficace des actions basée sur la posture

La reconnaissance d’actions basée sur les poses est principalement abordée par des approches qui traitent le squelette d’entrée de manière monolithique, c’est-à-dire que les articulations du squelette sont traitées comme un tout. Toutefois, de telles approches négligent le fait que les catégories d’actions sont souvent caractérisées par des dynamiques locales impliquant uniquement de petits sous-ensembles de groupes articulaires, comme les mains (par exemple, « pouce levé ») ou les jambes (par exemple, « coup de pied »). Bien qu’il existe des approches fondées sur le regroupement des parties, ces groupes ne sont pas considérés dans un cadre global du squelette, ce qui limite leur efficacité. En outre, les approches classiques utilisent des flux modaux indépendants (par exemple, articulation, os, vitesse d’articulation, vitesse d’os) et entraînent leur réseau plusieurs fois sur chacun de ces flux, ce qui entraîne une augmentation massive du nombre de paramètres d’entraînement. Pour remédier à ces limitations, nous proposons PSUMNet, une nouvelle approche pour la reconnaissance d’actions basée sur les poses, scalable et efficace. Au niveau de la représentation, nous introduisons une approche fondée sur des flux partiels basés sur un cadre global, contrairement aux flux modaux traditionnels. Dans chaque flux partiel, les données provenant de plusieurs modalités sont unifiées et consommées par le pipeline de traitement. Expérimentalement, PSUMNet atteint des performances de pointe sur les jeux de données largement utilisés NTURGB+D 60/120 et NTU 60-X/120-X à squelette dense. PSUMNet est particulièrement efficace et surpasser les méthodes concurrentes utilisant entre 100 % et 400 % de paramètres supplémentaires. De plus, PSUMNet se généralise également au jeu de données SHREC pour les gestes de main, avec des performances compétitives. Globalement, la scalabilité, la performance et l’efficacité de PSUMNet en font un choix attrayant pour la reconnaissance d’actions, ainsi que pour le déploiement sur des dispositifs embarqués ou en bordure à ressources informatiques limitées. Le code source et les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/skelemoa/psumnet