MMTM : Module de transfert multimodal pour la fusion de CNN

Dans la fusion tardive, chaque modalité est traitée par un flux distinct de réseau de neurones convolutif (CNN) unimodal, et les scores obtenus pour chaque modalité sont fusionnés à la fin. En raison de sa simplicité, cette approche reste prédominante dans de nombreuses applications multimodales de pointe. Dans ce travail, nous proposons un module simple de réseau neuronal permettant d’exploiter les connaissances provenant de plusieurs modalités au sein de réseaux de neurones convolutifs. L’unité proposée, nommée Module de transfert multimodal (MMTM), peut être intégrée à différents niveaux de la hiérarchie des caractéristiques, permettant ainsi une fusion modale progressive. En s’appuyant sur des opérations de squeeze et d’excitation, le MMTM utilise les informations provenant de plusieurs modalités pour recalibrer les caractéristiques canal par canal dans chaque flux CNN. Contrairement aux méthodes de fusion intermédiaires existantes, le module proposé peut être appliqué à la fusion des caractéristiques dans des couches convolutives présentant des dimensions spatiales différentes. Un autre avantage de cette méthode réside dans le fait qu’elle peut être ajoutée aux branches unimodales avec des modifications minimales de l’architecture du réseau, permettant ainsi à chaque branche d’être initialisée avec des poids pré-entraînés existants. Les résultats expérimentaux montrent que notre cadre améliore la précision de reconnaissance des réseaux multimodaux connus. Nous démontrons des performances au niveau de l’état de l’art ou compétitives sur quatre jeux de données couvrant divers domaines d’application, notamment la reconnaissance de gestes manuels dynamiques, l’amélioration de la parole et la reconnaissance d’actions à partir de données RGB et de joints corporels.