Génération de texte neuronal à partir de données structurées avec application au domaine des biographies

Ce document présente un modèle neuronal pour la génération de texte à partir de concepts, capable de s'adapter à des domaines vastes et riches. Nous avons expérimenté avec un nouveau jeu de données composé de biographies extraites de Wikipedia, qui est dix fois plus grand que les ressources existantes, avec plus de 700 000 échantillons. Ce jeu de données est également beaucoup plus diversifié, avec un vocabulaire de 400 000 mots, contrairement aux quelques centaines de mots utilisés pour Weathergov ou Robocup. Notre modèle s'appuie sur les travaux récents sur les modèles neuronaux conditionnels pour la génération de texte. Pour gérer le grand vocabulaire, nous étendons ces modèles en combinant un vocabulaire fixe avec des actions de copie qui transfèrent des mots spécifiques à chaque échantillon depuis la base de données d'entrée vers la phrase générée en sortie. Notre modèle neuronal dépasse significativement un modèle linguistique classique Kneser-Ney adapté à cette tâche, avec une amélioration d'environ 15 points BLEU.