HAMLET : Un algorithme hiérarchique à attention multimodale pour la reconnaissance des activités humaines

Pour collaborer efficacement avec les êtres humains, les robots doivent être capables de reconnaître avec précision les activités humaines. Bien que les robots modernes soient équipés de divers capteurs, la reconnaissance robuste des activités humaines (HAR, Human Activity Recognition) reste un défi majeur en raison des difficultés liées à la fusion de données multimodales. Afin de relever ces défis, nous proposons dans ce travail un algorithme de reconnaissance d’activités humaines basé sur un réseau de neurones profonds, nommé HAMLET. HAMLET repose sur une architecture hiérarchique : la couche inférieure encode les caractéristiques spatio-temporelles issues de données unimodales à l’aide d’un mécanisme d’attention auto-associative à plusieurs têtes. Nous avons développé un nouveau mécanisme d’attention multimodale permettant de déconnecter et de fusionner efficacement les caractéristiques saillantes issues des modalités unimodales, afin de calculer les caractéristiques multimodales à la couche supérieure. Enfin, ces caractéristiques multimodales sont traitées par un réseau de neurones entièrement connecté pour la reconnaissance des activités humaines. Nous avons évalué notre algorithme en le comparant à plusieurs méthodes de pointe sur trois jeux de données d’activités humaines. Les résultats montrent que HAMLET surpassait tous les autres modèles comparés sur l’ensemble des jeux de données et des métriques testées, atteignant une précision top-1 maximale de 95,12 % sur le jeu de données UTD-MHAD [1] et de 97,45 % sur le jeu de données UT-Kinect [2], ainsi qu’un score F1 de 81,52 % sur le jeu de données UCSD-MIT [3]. Nous avons également visualisé les cartes d’attention unimodales et multimodales, offrant ainsi un outil permettant d’interpréter l’impact des mécanismes d’attention sur la reconnaissance des activités humaines.