HyperAIHyperAI
il y a 2 mois

STAR-Net : Reconnaissance d'actions à l'aide de la reprojection de l'activation spatio-temporelle

McNally, William ; Wong, Alexander ; McPhee, John
STAR-Net : Reconnaissance d'actions à l'aide de la reprojection de l'activation spatio-temporelle
Résumé

Bien que les caméras à profondeur et les capteurs inertiels soient fréquemment utilisés pour la reconnaissance des actions humaines, ces modalités de capteurs sont impraticables dans de nombreux scénarios où des contraintes de coût ou environnementales interdisent leur utilisation. Par conséquent, il y a récemment eu un intérêt croissant pour la reconnaissance des actions humaines à l'aide de caméras RGB peu coûteuses et facilement disponibles, via des réseaux neuronaux convolutifs profonds. Cependant, beaucoup des réseaux neuronaux convolutifs profonds proposés jusqu'à présent pour la reconnaissance d'actions ont fortement dépendu de l'apprentissage de indices d'apparence globale directement à partir des données d'imagerie, ce qui a conduit à des architectures de réseau hautement complexes, coûteuses en termes de calcul et difficiles à entraîner. Motivés par le désir de réduire la complexité du réseau et d'atteindre une meilleure performance, nous introduisons le concept de reprojection d'activations spatio-temporelles (STAR). Plus précisément, nous reprojetons les activations spatio-temporelles générées par les couches d'estimation de posture humaine dans l'espace et le temps à l'aide d'une pile de convolutions 3D. Les résultats expérimentaux sur UTD-MHAD et J-HMDB montrent qu'une architecture bout-en-bout basée sur le cadre STAR proposé (que nous surnommons STAR-Net) est compétente pour les applications mono-environnementales et à petite échelle. Sur UTD-MHAD, STAR-Net surpass plusieurs méthodes utilisant des modalités de données plus riches telles que les capteurs de profondeur et inertiels.

STAR-Net : Reconnaissance d'actions à l'aide de la reprojection de l'activation spatio-temporelle | Articles de recherche récents | HyperAI