Génération de texte à partir de données avec planification macro

Les approches récentes de génération de texte à partir de données ont adopté l'architecture très réussie d'encodeur-décodeur ou ses variantes. Ces modèles produisent des textes fluides (mais souvent imprécis) et se révèlent particulièrement inefficaces pour sélectionner le contenu pertinent et l'organiser de manière cohérente. Pour surmonter certaines de ces limitations, nous proposons un modèle neuronal comprenant une phase de planification macroscopique suivie d'une phase de génération évoquant les méthodes traditionnelles, qui reposent sur des modules séparés pour la planification et la réalisation superficielle. Les plans macroscopiques représentent l'organisation de haut niveau du contenu essentiel, tel que les entités, les événements et leurs interactions ; ils sont appris à partir des données et fournis en entrée au générateur. Des expérimentations étendues sur deux benchmarks de génération texte à partir de données (RotoWire et MLB) montrent que notre approche surpasser les modèles de référence en termes d'évaluation automatique et humaine.