Génération de texte à partir de données avec sélection et planification du contenu

Les progrès récents dans la génération de texte à partir de données ont conduit à l'utilisation de grands ensembles de données et de modèles de réseau neuronal qui sont formés d'un bout à l'autre, sans modéliser explicitement ce qu'il faut dire et dans quel ordre. Dans cette étude, nous présentons une architecture de réseau neuronal qui intègre la sélection du contenu et la planification sans compromettre la formation d'un bout à l'autre. Nous décomposons la tâche de génération en deux étapes. Étant donné un corpus de registres de données (accompagnés de documents descriptifs), nous générons d'abord un plan de contenu mettant en évidence les informations qui doivent être mentionnées et leur ordre, puis nous générons le document tout en prenant en compte ce plan de contenu. Les expériences d'évaluation automatique et basée sur l'humain montrent que notre modèle surpasses des lignes de base solides, améliorant ainsi l'état de l'art sur le jeu de données RotoWire récemment publié.