Command Palette
Search for a command to run...
TEASEL : un modèle linguistique préfixé par la parole basé sur Transformer
TEASEL : un modèle linguistique préfixé par la parole basé sur Transformer
Mehdi Arjmand Mohammad Javad Dousti Hadi Moradi
Résumé
L’analyse multimodale du langage est un domaine émergent du traitement automatique du langage (NLP) visant à modéliser simultanément les mots d’un locuteur, les annotations acoustiques et les expressions faciales. Dans ce domaine, les caractéristiques lexicales surpassent généralement les autres modalités, car elles sont pré-entraînées sur de grandes corpora à l’aide de modèles basés sur l’architecture Transformer. Malgré leurs performances élevées, il est généralement impossible d’entraîner un nouveau modèle Transformer à apprentissage auto-supervisé (SSL) sur une modalité donnée en raison d’un manque de données — un problème fréquent dans le contexte de l’apprentissage multimodal du langage. Ce travail propose un modèle de langage basé sur Transformer, appelé TEASEL (Transformer-based Speech-Prefixed Language Model), conçu pour surmonter ces contraintes sans nécessiter l’entraînement d’un modèle Transformer complet. Contrairement à un modèle de langage conventionnel, TEASEL intègre la modalité vocale sous la forme d’un préfixe dynamique en complément de la modalité textuelle. Cette approche exploite un modèle de langage pré-entraîné classique comme modèle Transformer intermodale. Nous avons évalué TEASEL sur la tâche d’analyse de sentiment multimodale définie par le jeu de données CMU-MOSI. Des expérimentations étendues montrent que notre modèle obtient une performance supérieure de 4 % par rapport aux modèles unimodaux de base en score F1, et une amélioration de 1 % par rapport au modèle d’état de l’art (SoTA) multimodal actuel. En outre, la méthode proposée est 72 % plus petite que le modèle d’état de l’art.