MuMu : Fusion multimodale guidée par apprentissage coopératif multitâches
Les capteurs multimodaux (visuels, non-visuels et portables) peuvent fournir des informations complémentaires afin de développer des systèmes de perception robustes pour la reconnaissance précise des activités humaines. Toutefois, il est difficile d’extraire des représentations multimodales robustes en raison des caractéristiques hétérogènes des données provenant de capteurs multimodaux ainsi que de la diversité des activités humaines, en particulier en présence de données de capteurs bruitées et mal alignées. Dans ce travail, nous proposons une approche de fusion multimodale guidée fondée sur l’apprentissage coopératif multitâche, appelée MuMu, pour extraire des représentations multimodales robustes dans le cadre de la reconnaissance des activités humaines (HAR). MuMu utilise une stratégie d’apprentissage par tâche auxiliaire afin d’extraire des caractéristiques spécifiques à chaque groupe d’activités partageant des caractéristiques communes (groupe d’activités). Ensuite, MuMu exploite ces caractéristiques spécifiques au groupe d’activités pour guider notre approche proposée de fusion multimodale guidée (GM-Fusion), conçue comme tâche cible, afin d’extraire des représentations multimodales complémentaires. Nous avons évalué MuMu en comparant ses performances aux approches de pointe en matière de HAR multimodale sur trois jeux de données d’activités. Nos résultats expérimentaux étendus indiquent que MuMu surpassent toutes les approches évaluées sur les trois jeux de données. En outre, l’étude d’ablation montre que MuMu surpasse significativement les modèles de base (p < 0,05) qui n’utilisent pas notre fusion multimodale guidée. Enfin, la performance robuste de MuMu sur des données de capteurs bruitées et mal alignées démontre que notre approche est adaptée à la reconnaissance des activités humaines dans des environnements réels.