Construction de bases plus solides et plus rapides pour la reconnaissance d'actions basée sur les squelettes

Un problème fondamental dans la reconnaissance d’actions basée sur les squelettes réside dans la manière d’extraire des caractéristiques discriminantes à travers tous les joints du squelette. Toutefois, la complexité des modèles les plus récents de l’état de l’art (SOTA) pour cette tâche tend à être excessivement sophistiquée et sur-paramétrée. Cette faible efficacité en apprentissage et en inférence augmente considérablement les coûts de validation des architectures de modèles sur des jeux de données à grande échelle. Pour résoudre ce problème, des couches de convolution séparable avancées sont intégrées dans un réseau initial à branches multiples (MIB) fusionnées, permettant ainsi de construire une base efficace de réseau de convolution de graphe (GCN) pour la reconnaissance d’actions basée sur les squelettes. Par ailleurs, à partir de cette base, nous proposons une stratégie d’agrandissement combinée permettant d’élargir simultanément la largeur et la profondeur du modèle, aboutissant finalement à une famille de bases GCN efficaces offrant à la fois une haute précision et un nombre réduit de paramètres entraînables, désignées EfficientGCN-Bx, où « x » représente le coefficient d’agrandissement. Sur deux grands jeux de données, à savoir NTU RGB+D 60 et 120, la base EfficientGCN-B4 proposée dépasse les autres méthodes SOTA : elle atteint une précision de 91,7 % sur le benchmark cross-subject du jeu de données NTU 60, tout en étant 3,15 fois plus petite et 3,21 fois plus rapide que MS-G3D, l’une des meilleures méthodes SOTA. Le code source en version PyTorch ainsi que les modèles pré-entraînés sont disponibles à l’adresse suivante : https://github.com/yfsong0709/EfficientGCNv1.