ViGGO : Un corpus de jeux vidéo pour la génération de texte à partir de données dans le cadre de conversations à domaine ouvert

L’adoption du deep learning dans la génération de langage naturel (NLG) a conduit à la mise à disposition de corpus parallèles, tant petits que relativement volumineux, destinés à l’entraînement des modèles neuronaux. Les jeux de données existants pour la transformation données-texte sont toutefois principalement orientés vers des systèmes de dialogue orientés vers une tâche, ce qui les rend souvent limités en diversité et en polyvalence. Ces données sont généralement collectées par le biais de plateformes de crowdsourcing, laissant une grande partie du bruit inhérent aux données non traitée. Par ailleurs, les modèles actuels de NLG neuronaux ne tirent pas pleinement parti des grandes quantités de données d’entraînement, et en raison de leurs fortes capacités d’induction, produisent souvent des phrases aux allures de modèles prédéfinis. Nous proposons donc un nouveau corpus comprenant 7 000 échantillons, qui présente les caractéristiques suivantes : (1) il est propre malgré son origine en crowdsourcing ; (2) il inclut des énoncés couvrant 9 types d’actes de dialogue généraux et conversationnels, ce qui le rend plus adapté aux systèmes de dialogue ouverts ; (3) il explore un domaine nouveau pour les systèmes de dialogue — celui des jeux vidéo — qui, malgré son fort potentiel pour favoriser des conversations riches, n’avait jusqu’ici pas été largement exploité.