HiTrans : un modèle basé sur Transformer sensible au contexte et au locuteur pour la détection des émotions dans les conversations

La détection des émotions dans les conversations (EDC) consiste à identifier l’émotion associée à chaque énoncé dans une interaction conversationnelle impliquant plusieurs locuteurs. Contrairement à la détection traditionnelle des émotions non conversationnelle, un modèle d’EDC doit être sensible au contexte (par exemple, comprendre l’intégralité de la conversation plutôt qu’un seul énoncé) et sensible au locuteur (par exemple, identifier à quel locuteur appartient chaque énoncé). Dans cet article, nous proposons un modèle fondé sur les transformeurs, sensible à la fois au contexte et au locuteur, pour l’EDC, nommé HiTrans, qui repose sur deux transformeurs hiérarchiques. Nous utilisons BERT comme transformeur de bas niveau afin de générer des représentations locales des énoncés, que nous alimentons dans un transformeur de haut niveau, permettant ainsi aux représentations d’énoncés d’être sensibles au contexte global de la conversation. En outre, nous introduisons une tâche auxiliaire pour rendre notre modèle sensible au locuteur, appelée vérification par paires de locuteur d’énoncé (PUSV), dont l’objectif est de classifier si deux énoncés proviennent du même locuteur. Nous évaluons notre modèle sur trois jeux de données de référence : EmoryNLP, MELD et IEMOCAP. Les résultats montrent que notre modèle surpasser les modèles d’état de l’art précédents.