HyperAIHyperAI
il y a un mois

Amélioration des performances de la reconnaissance unimodale des gestes de la main dynamiques grâce à une formation multimodale

Mahdi Abavisani; Hamid Reza Vaezi Joze; Vishal M. Patel
Amélioration des performances de la reconnaissance unimodale des gestes de la main dynamiques grâce à une formation multimodale
Résumé

Nous présentons une approche efficace pour exploiter les connaissances provenant de plusieurs modalités lors de l'entraînement de réseaux neuronaux convolutifs 3D unimodaux (3D-CNNs) pour la tâche de reconnaissance des gestes de la main dynamiques. Au lieu de combiner explicitement les informations multimodales, pratique courante dans de nombreuses méthodes d'avant-garde, nous proposons un cadre différent où nous intégrons les connaissances de plusieurs modalités dans des réseaux individuels afin que chaque réseau unimodal puisse atteindre une meilleure performance. Plus précisément, nous dédions des réseaux distincts à chaque modalité disponible et les obligeons à collaborer pour apprendre à développer des réseaux dotés de sémantiques communes et de représentations améliorées. Nous introduisons une perte d'« alignement sémantique spatio-temporel » (SSA) pour aligner le contenu des caractéristiques issues de différents réseaux. De plus, nous régularisons cette perte avec notre paramètre de régularisation « focal » proposé pour éviter le transfert négatif des connaissances. Les résultats expérimentaux montrent que notre cadre améliore la précision de reconnaissance en temps réel des réseaux unimodaux et fournit des performances d'avant-garde sur divers jeux de données de reconnaissance des gestes de la main dynamiques.