Représentations multimodales non supervisées du langage à l’aide d’autoencodeurs convolutionnels

L’analyse multimodale du langage constitue un domaine de recherche exigeant, en raison de deux exigences fondamentales : la fusion de différentes modalités et la capture de l’information temporelle. Ces dernières années, de nombreuses études ont été proposées dans ce domaine, principalement centrées sur l’apprentissage supervisé pour des tâches spécifiques en aval. Dans cet article, nous proposons d’extraire des représentations multimodales du langage non supervisées, universelles et applicables à diverses tâches. À cette fin, nous transformons les séquences multimodales alignées au niveau des mots en matrices bidimensionnelles, puis utilisons des autoencodeurs convolutifs pour apprendre des embeddings en combinant plusieurs jeux de données. Des expérimentations étendues sur l’analyse d’opinion (MOSEI) et la reconnaissance des émotions (IEMOCAP) montrent que les représentations apprises atteignent des performances proches de l’état de l’art, en utilisant uniquement un algorithme de régression logistique pour la classification en aval. Il est également démontré que notre méthode est extrêmement légère, capable de se généraliser facilement à d’autres tâches et à des données inédites, avec une baisse de performance négligeable et un nombre presque identique de paramètres. Les modèles de représentation multimodale proposés sont mis à disposition en open source, ce qui devrait favoriser leur adoption et élargir leur applicabilité dans le domaine de l’analyse multimodale du langage.