EmoWOZ : Un corpus à grande échelle et un schéma d’étiquetage pour la reconnaissance des émotions dans les systèmes de dialogue orientés vers une tâche

La capacité à reconnaître les émotions confère à une intelligence artificielle conversationnelle une dimension humaine. Bien que les émotions dans les dialogues informels aient fait l’objet d’une attention considérable, celles présentes dans les dialogues orientés vers une tâche restent largement sous-étudiées. Pourtant, les émotions jouent un rôle tout aussi crucial que la réussite du dialogue dans un système naturel. Les corpus existants annotés émotionnellement pour les dialogues orientés vers une tâche sont limités en taille, en richesse des étiquettes et en disponibilité publique, constituant ainsi un goulot d’étranglement pour les tâches ultérieures. Afin de poser les bases des recherches sur les émotions dans les dialogues orientés vers une tâche, nous introduisons EmoWOZ, un corpus à grande échelle annoté manuellement pour les émotions dans les dialogues orientés vers une tâche. EmoWOZ est basé sur MultiWOZ, un jeu de données de dialogues orientés vers plusieurs domaines. Il contient plus de 11 000 dialogues et plus de 83 000 annotations émotionnelles portant sur les énoncés des utilisateurs. En plus des dialogues de type Wizard-of-Oz provenant de MultiWOZ, nous avons collecté des dialogues homme-machine dans les mêmes domaines afin de couvrir de manière suffisante l’espace des différentes émotions pouvant survenir au cours du cycle de vie d’un système de dialogue fondé sur les données. À notre connaissance, il s’agit du premier corpus open-source à grande échelle de ce type. Nous proposons un nouveau schéma d’annotation émotionnelle, spécifiquement conçu pour les dialogues orientés vers une tâche. Nous présentons un ensemble de résultats expérimentaux démontrant la faisabilité de ce corpus pour la reconnaissance des émotions et le suivi d’état dans les dialogues orientés vers une tâche.