HyperAIHyperAI
il y a 12 jours

Un réseau complémentaire denses-épars pour la reconnaissance d’actions humaines basé sur les modalités RGB et squelette

{Qin Cheng,Jun Cheng,Zhen Liu,Ziliang Ren,Jianming Liu}
Résumé

La vulnérabilité de la reconnaissance d’actions humaines basée sur les images RGB dans des environnements complexes et des scènes variées peut être compensée par la modalité squelette. Par conséquent, les méthodes de reconnaissance d’actions combinant les modalités RGB et squelette ont récemment attiré une attention croissante. Toutefois, les performances actuelles de ces méthodes restent insatisfaisantes en raison d’une optimisation insuffisante des stratégies d’échantillonnage, de modélisation et de fusion, malgré un coût computationnel élevé. Dans cet article, nous proposons un réseau DSCNet (Dense-Sparse Complementary Network), visant à exploiter efficacement les informations complémentaires des modalités RGB et squelette à un coût computationnel faible, tout en obtenant des performances compétitives en reconnaissance d’actions. Plus précisément, nous adoptons d’abord des stratégies d’échantillonnage denses et épaisses, respectivement adaptées aux avantages des modalités RGB et squelette. Ensuite, nous utilisons le squelette comme information directive pour extraire la région active clé des personnes dans les trames RGB, ce qui élimine largement les interférences du fond. Par ailleurs, nous introduisons un module d’extraction de mouvement à court terme (STMEM) pour compresser les trames RGB échantillonnées de manière dense en un nombre réduit de trames avant leur passage dans le réseau principal, évitant ainsi une augmentation explosive du coût computationnel. En outre, un réseau neuronal convolutif à multi-échelle sparses dans l’espace et le temps (Sparse-MSSTNet) est conçu pour modéliser efficacement les squelettes épars. Des expériences étendues démontrent que notre méthode combine de manière efficace les informations complémentaires des deux modalités RGB et squelette, améliorant ainsi significativement la précision de reconnaissance. Le DSCNet atteint des performances compétitives sur les jeux de données NTU RGB+D 60, NTU RGB+D 120, PKU-MMD, UAV-human, IKEA ASM et Northwest-UCLA, tout en nécessitant un coût computationnel nettement inférieur à celui des méthodes existantes. Le code source est disponible à l’adresse suivante : https://github.com/Maxchengqin/DSCNet.

Un réseau complémentaire denses-épars pour la reconnaissance d’actions humaines basé sur les modalités RGB et squelette | Articles de recherche récents | HyperAI