Étape par étape : Séparer la planification de la réalisation dans la génération de texte à partir de données neuronales

La génération de texte à partir de données peut être conceptuellement divisée en deux parties : l'ordonnancement et la structuration des informations (planification) et la génération d'un langage fluide décrivant ces informations (réalisation). Les systèmes modernes de génération neuronale confondent ces deux étapes en un système unique et différentiable de bout en bout. Nous proposons de séparer le processus de génération en une étape symbolique de planification du texte qui respecte fidèlement l'entrée, suivie d'une étape de génération neuronale se concentrant uniquement sur la réalisation. Pour entraîner un générateur de texte à partir d'un plan, nous présentons une méthode permettant d'apparier les textes de référence à leurs plans textuels correspondants. Pour la phase d'inférence, nous décrivons une méthode pour sélectionner des plans textuels de haute qualité pour les nouvelles entrées. Nous mettons en œuvre et évaluons notre approche sur le banc d'essai WebNLG. Nos résultats montrent que la dissociation de la planification du texte et de la réalisation neuronale améliore effectivement la fiabilité et l'adéquation du système tout en maintenant une sortie fluide. Nous constatons des améliorations tant dans les scores BLEU que dans les évaluations manuelles. Un autre avantage de notre approche est la capacité à produire des réalisations diverses pour une même entrée, ouvrant ainsi la voie à un contrôle explicite sur la structure du texte généré.