HyperAIHyperAI
il y a 2 mois

Fusion-GCN : Reconnaissance d'actions multimodales à l'aide de réseaux de convolution graphique

Michael Duhme; Raphael Memmesheimer; Dietrich Paulus
Fusion-GCN : Reconnaissance d'actions multimodales à l'aide de réseaux de convolution graphique
Résumé

Dans cet article, nous présentons Fusion-GCN, une approche de reconnaissance d'actions multimodales utilisant des réseaux de convolution graphique (Graph Convolutional Networks, GCNs). Les méthodes de reconnaissance d'actions basées sur les GCNs ont récemment obtenu des performances de pointe dans le domaine de la reconnaissance d'actions à partir de squelettes. Avec Fusion-GCN, nous proposons d'intégrer diverses modalités de données capteur dans un graphe qui est formé à l'aide d'un modèle GCN pour la reconnaissance d'actions multimodales. Des mesures supplémentaires provenant des capteurs sont incorporées dans la représentation du graphe, soit sur une dimension de canal (en introduisant des attributs de nœud supplémentaires) ou sur une dimension spatiale (en introduisant de nouveaux nœuds). Fusion-GCN a été évalué sur deux jeux de données publics, les ensembles UTD-MHAD et MMACT, et démontre une fusion flexible des séquences RGB, des mesures inertielle et des séquences squelette. Notre approche obtient des résultats comparables sur l'ensemble UTD-MHAD et améliore considérablement la ligne de base sur l'ensemble MMACT à grande échelle, avec une marge significative allant jusqu'à 12,37 % (mesure F1) grâce à la fusion des estimations squelette et des mesures d'accéléromètre.

Fusion-GCN : Reconnaissance d'actions multimodales à l'aide de réseaux de convolution graphique | Articles de recherche récents | HyperAI