Une encodage conjoint basé sur Transformer pour la reconnaissance d'émotions et l'analyse de sentiment

La compréhension du sentiment exprimé et des émotions constitue deux facteurs essentiels dans le langage multimodal humain. Ce papier présente une architecture basée sur les Transformers, appelée codage conjoint par Transformer (TBJE), dédiée à la reconnaissance des émotions et à l’analyse de sentiment. En plus d’utiliser l’architecture Transformer, notre approche repose sur une attention conjointe modulaire et une couche de « aperçu » (glimpse layer) afin de coder conjointement un ou plusieurs modalités. La solution proposée a également été soumise au ACL20 : Second Grand-Challenge sur le langage multimodal, afin d’être évaluée sur le jeu de données CMU-MOSEI. Le code permettant de reproduire les expériences présentées est mis à disposition sous licence open-source : https://github.com/jbdel/MOSEI_UMONS.