HyperAIHyperAI
il y a 18 jours

Fusion multimodale via un réseau enseignant-étudiant pour la reconnaissance d'actions en intérieur

{Keith C.C. Chan, Yan Liu, Bruce X.B. Yu}
Résumé

La reconnaissance d’actions en intérieur joue un rôle crucial dans la société moderne, notamment dans le domaine de la santé intelligente au sein d’hôpitaux mobiles de grande taille. Grâce à l’utilisation croissante de capteurs de profondeur tels que Kinect, l’information multimodale, incluant les modalités squelette et RGB, ouvre une voie prometteuse pour améliorer les performances. Toutefois, les méthodes existantes se concentrent soit sur une seule modalité de données, soit échouent à exploiter pleinement les avantages des données multimodales. Dans ce travail, nous proposons un modèle de fusion multimodale enseignant-élève (TSMF) qui combine les modalités squelette et RGB au niveau du modèle pour la reconnaissance d’actions en intérieur. Dans notre approche TSMF, un réseau enseignant transfère les connaissances structurelles de la modalité squelette vers un réseau élève dédié à la modalité RGB. Des expérimentations étendues sur deux jeux de données standardisés, NTU RGB+D et PKU-MMD, montrent que le modèle TSMF proposé surpasser systématiquement les méthodes de pointe, qu’elles soient mono-modales ou multimodales. Ces résultats indiquent également que notre modèle TSMF permet non seulement d’améliorer la précision du réseau élève, mais aussi de renforcer de manière significative la précision de l’ensemble des modèles.

Fusion multimodale via un réseau enseignant-étudiant pour la reconnaissance d'actions en intérieur | Articles de recherche récents | HyperAI