MMDialog : Un grand ensemble de données de dialogue multi-tour pour la conversation ouverte multi-modale

La réponse avec du contenu multi-modal est reconnue comme une capacité essentielle pour un agent conversationnel intelligent. Dans cet article, nous présentons le jeu de données MMDialog afin de mieux faciliter les conversations multi-modales. MMDialog est composé d'un ensemble curatif de 1,08 million de dialogues réels associés à 1,53 million d'images uniques sur 4 184 sujets. MMDialog présente deux avantages principaux et uniques. Premièrement, c'est le plus grand jeu de données de conversation multi-modale en termes de nombre de dialogues, surpassant les précédents par un facteur de 88. Deuxièmement, il contient une multitude de sujets permettant une généralisation dans le domaine ouvert.Pour construire un système de dialogue engageant à partir de ce jeu de données, nous proposons et normalisons deux tâches de production de réponses basées sur des scénarios d'extraction (retrieval) et génératifs (generative). De plus, nous avons développé deux modèles basiques pour ces tâches en utilisant des techniques d'avant-garde et nous rapportons leurs performances expérimentales. Nous proposons également une nouvelle métrique d'évaluation appelée MM-Pertinence (MM-Relevance) pour mesurer la pertinence des réponses multi-modales.Notre jeu de données ainsi que nos scripts sont disponibles sur https://github.com/victorsungo/MMDialog.