OpenViDial 2.0 : Un jeu de données plus vaste pour la génération de dialogues dans des domaines ouverts avec des contextes visuels

Pour mieux simuler le processus réel de conversation humaine, les modèles doivent générer des énoncés de dialogue non seulement en fonction des contextes textuels précédents, mais aussi en tenant compte des contextes visuels. Cependant, avec le développement de l'apprentissage de dialogue multi-modale, l'échelle des jeux de données devient progressivement un goulot d'étranglement. Dans ce rapport, nous présentons OpenViDial 2.0, un jeu de données multi-modale de dialogue à domaine ouvert plus vaste que la version précédente OpenViDial 1.0. OpenViDial 2.0 contient au total 5,6 millions d'échanges de dialogue extraits de films ou de séries télévisées provenant de différentes sources, et chaque échange est associé à son contexte visuel correspondant. Nous espérons que ce grand jeu de données pourra aider à faciliter les recherches futures sur la génération de dialogues à domaine ouvert multi-modale, par exemple l'apprentissage préalable multi-modale pour la génération de dialogues (multi-modal pretraining for dialogue generation).