HyperAIHyperAI
il y a 3 mois

Reconnaissance d'actions avec modélisation multi-flux du mouvement et maximisation de l'information mutuelle

Yuheng Yang, Haipeng Chen, Zhenguang Liu, Yingda Lyu, Beibei Zhang, Shuang Wu, Zhibo Wang, Kui Ren
Reconnaissance d'actions avec modélisation multi-flux du mouvement et maximisation de l'information mutuelle
Résumé

La reconnaissance d’actions a toujours constitué un problème fondamental et fascinant en intelligence artificielle. Cette tâche s’avère particulièrement difficile en raison de la nature à haute dimensionnalité des actions, ainsi que des détails subtils de mouvement à prendre en compte. Les approches les plus avancées actuelles apprennent typiquement à partir de séquences de mouvements articulés dans l’espace euclidien 3D direct. Toutefois, l’espace euclidien classique n’est pas efficace pour modéliser des caractéristiques motionnelles importantes telles que l’accélération angulaire par articulation, qui révèle la force motrice sous-jacente au mouvement. En outre, les méthodes actuelles traitent généralement tous les canaux de manière équivalente et manquent de contraintes théoriques pour extraire efficacement des caractéristiques pertinentes pour la tâche à partir des entrées.Dans cet article, nous abordons ces défis sous trois angles : (1) Nous proposons d’introduire une représentation basée sur l’accélération, modélisant explicitement les variations d’ordre supérieur dans le mouvement. (2) Nous introduisons un nouveau réseau Stream-GCN doté de composants multi-flux et d’un mécanisme d’attention sur les canaux, où différentes représentations (c’est-à-dire les flux) se complètent mutuellement afin d’améliorer la précision de la reconnaissance d’actions, tandis que l’attention met l’accent sur les canaux les plus pertinents. (3) Nous explorons une supervision au niveau des caractéristiques afin de maximiser l’extraction d’informations pertinentes pour la tâche, que nous formulons sous la forme d’une fonction de perte basée sur l’information mutuelle. Expérimentalement, notre approche établit un nouveau record sur trois jeux de données standard : NTU RGB+D, NTU RGB+D 120 et NW-UCLA. Le code source est anonymement publié à l’adresse suivante : https://github.com/ActionR-Group/Stream-GCN, dans l’espoir d’inspirer la communauté scientifique.

Reconnaissance d'actions avec modélisation multi-flux du mouvement et maximisation de l'information mutuelle | Articles de recherche | HyperAI