MMLatch : Fusion basée sur le bas et le haut pour l'analyse multimodale du sentiment

Les approches actuelles du deep learning pour la fusion multimodale reposent sur une fusion descendante des représentations latentes de haut et de moyen niveau pour chaque modalité (fusion tardive ou moyenne), ou sur une fusion précoce des entrées sensorielles de bas niveau. Les modèles de la perception humaine mettent en évidence l'importance de la fusion ascendante, dans laquelle les représentations de haut niveau influencent la manière dont les stimuli sensoriels sont perçus, c’est-à-dire que la cognition affecte la perception. Ces interactions ascendantes ne sont pas prises en compte dans les modèles de deep learning actuels. Dans ce travail, nous proposons une architecture neuronale qui capture les interactions intermodales ascendantes, en introduisant un mécanisme de rétroaction pendant le passage avant lors de l’entraînement du réseau. Ce mécanisme extrait des représentations de haut niveau pour chaque modalité et les utilise pour masquer les entrées sensorielles, permettant ainsi au modèle d’effectuer un masquage de caractéristiques ascendantes. Nous appliquons ce modèle à la reconnaissance multimodale du sentiment sur le jeu de données CMU-MOSEI. Notre méthode obtient des améliorations constantes par rapport au modèle bien établi MulT ainsi qu’à notre base de fusion tardive performante, atteignant des résultats de pointe dans la littérature.