HyperAIHyperAI
il y a 17 jours

TEASEL : un modèle linguistique préfixé par la parole basé sur Transformer

Mehdi Arjmand, Mohammad Javad Dousti, Hadi Moradi
TEASEL : un modèle linguistique préfixé par la parole basé sur Transformer
Résumé

L’analyse multimodale du langage est un domaine émergent du traitement automatique du langage (NLP) visant à modéliser simultanément les mots d’un locuteur, les annotations acoustiques et les expressions faciales. Dans ce domaine, les caractéristiques lexicales surpassent généralement les autres modalités, car elles sont pré-entraînées sur de grandes corpora à l’aide de modèles basés sur l’architecture Transformer. Malgré leurs performances élevées, il est généralement impossible d’entraîner un nouveau modèle Transformer à apprentissage auto-supervisé (SSL) sur une modalité donnée en raison d’un manque de données — un problème fréquent dans le contexte de l’apprentissage multimodal du langage. Ce travail propose un modèle de langage basé sur Transformer, appelé TEASEL (Transformer-based Speech-Prefixed Language Model), conçu pour surmonter ces contraintes sans nécessiter l’entraînement d’un modèle Transformer complet. Contrairement à un modèle de langage conventionnel, TEASEL intègre la modalité vocale sous la forme d’un préfixe dynamique en complément de la modalité textuelle. Cette approche exploite un modèle de langage pré-entraîné classique comme modèle Transformer intermodale. Nous avons évalué TEASEL sur la tâche d’analyse de sentiment multimodale définie par le jeu de données CMU-MOSI. Des expérimentations étendues montrent que notre modèle obtient une performance supérieure de 4 % par rapport aux modèles unimodaux de base en score F1, et une amélioration de 1 % par rapport au modèle d’état de l’art (SoTA) multimodal actuel. En outre, la méthode proposée est 72 % plus petite que le modèle d’état de l’art.

TEASEL : un modèle linguistique préfixé par la parole basé sur Transformer | Articles de recherche récents | HyperAI