HyperAIHyperAI
il y a 18 jours

Multi-GAT : Une approche hiérarchique d’apprentissage représentationnel multimodal basée sur l’attention graphique pour la reconnaissance des activités humaines

{Tariq Iqbal, Md Mofijul Islam}
Résumé

La reconnaissance des activités humaines constitue l’une des capacités essentielles dont doit disposer un robot pour être utile en présence d’humains. Bien que les robots modernes soient équipés de divers types de capteurs, la reconnaissance des activités humaines (HAR, Human Activity Recognition) reste un problème complexe, notamment en présence de données de capteurs bruitées. Dans ce travail, nous proposons une approche multimodale basée sur l’attention graphique, appelée Multi-GAT, qui apprend hiérarchiquement des caractéristiques complémentaires issues de différentes modalités. Nous avons conçu un modèle mixte à experts multimodaux afin de désentrelacer et d’extraire efficacement les caractéristiques spécifiques à chaque modalité, favorisant ainsi les interactions entre ces dernières. Par ailleurs, nous introduisons une nouvelle méthode d’attention graphique fondée sur le passage de messages, permettant de capturer les relations croisées entre modalités afin d’extraire des caractéristiques multimodales complémentaires. Les résultats expérimentaux obtenus sur deux jeux de données multimodaux d’activités humaines montrent que Multi-GAT surpasser tous les algorithmes d’HAR de pointe sur l’ensemble des jeux de données et des métriques testées. Enfin, les expériences réalisées avec des données de capteurs bruitées démontrent que Multi-GAT surpasse de manière cohérente tous les modèles de référence évalués. Cette robustesse démontre que Multi-GAT peut permettre une collaboration fluide entre humains et robots dans des environnements humains bruyants.