DialogXL : XLNet tout-en-un pour la reconnaissance des émotions dans les conversations à plusieurs intervenants

Cet article présente notre initiative pionnière en reconnaissance des émotions dans les conversations (ERC) basée sur des modèles pré-entraînés de langage. Contrairement aux documents réguliers, les énoncés conversationnels proviennent alternativement de différents interlocuteurs et sont généralement structurés de manière hiérarchique dans les travaux antérieurs. De telles structures ne sont pas propices à l’application de modèles pré-entraînés comme XLNet. Pour résoudre ce problème, nous proposons un modèle XLNet intégré, nommé DialogXL, doté d’une mémoire améliorée permettant de conserver un contexte historique plus long, ainsi qu’un mécanisme d’attention auto-attention orientée vers la conversation afin de gérer les structures multi-participants. Plus précisément, nous modifions tout d’abord le mécanisme de récurrence de XLNet, passant d’un niveau par segment à un niveau par énoncé, afin de mieux modéliser les données conversationnelles. Ensuite, nous introduisons une attention auto-attention orientée vers la conversation, en remplacement de l’attention auto-attention classique dans XLNet, afin de capturer efficacement les dépendances intra-et inter-parlants utiles. Des expériences étendues sont menées sur quatre benchmarks d’ERC, en comparaison avec des modèles courants. Les résultats expérimentaux montrent que le modèle proposé surpasser les modèles de référence sur tous les jeux de données. Des expériences complémentaires, telles qu’une étude d’ablation et une analyse d’erreurs, sont également réalisées, et les résultats confirment l’importance des modules clés de DialogXL.