Entraînement de systèmes de dialogue bout-en-bout à l’aide du corpus de dialogue Ubuntu

Dans cet article, nous analysons les systèmes de dialogue basés sur les réseaux de neurones entraînés de manière end-to-end à l’aide d’une version mise à jour du récent Ubuntu Dialogue Corpus, un ensemble de données comprenant près d’un million de dialogues multi-tours, avec un total de plus de 7 millions d’énoncés et 100 millions de mots. Ce jeu de données est particulièrement intéressant en raison de sa taille, de ses longues séquences contextuelles et de son caractère technique ; il permet ainsi d’entraîner directement de grands modèles à partir de données, avec une ingénierie de caractéristiques minimale. Nous proposons des références (baselines) dans deux environnements distincts : dans le premier, les modèles sont entraînés à sélectionner la bonne réponse suivante parmi une liste de réponses candidates ; dans le second, les modèles sont entraînés à maximiser la log-vraisemblance d’un énoncé généré conditionnellement au contexte de la conversation. Ces deux approches sont évaluées sur une tâche de rappel que nous appelons classification de la prochaine utterance (NUC), ainsi que par des métriques basées sur des vecteurs, capables de capturer la topicalité des réponses. Nous constatons que les modèles end-to-end actuels ne parviennent pas à résoudre entièrement ces tâches ; par conséquent, nous menons une analyse qualitative des erreurs afin d’identifier les causes principales des erreurs observées sur la tâche NUC, et examinons des exemples d’énoncés produits par les modèles génératifs. À la suite de cette analyse, nous suggérons plusieurs directions prometteuses pour la recherche future sur le Ubuntu Dialogue Corpus, qui pourraient également s’appliquer aux systèmes de dialogue end-to-end en général.