Gestion des éléments rares dans la génération de texte à partir de données

Les approches neurales de génération de texte à partir de données traitent généralement les éléments d'entrée rares soit par délexicalisation, soit par un mécanisme de copie. Nous étudions l'impact relatif de ces deux méthodes sur deux jeux de données (E2E et WebNLG) et dans deux configurations d'évaluation. Nous montrons que (i) les éléments rares ont un impact significatif sur les performances ; (ii) la combinaison de la délexicalisation et de la copie conduit à la meilleure amélioration ; (iii) la copie se comporte moins bien pour les éléments rares et inconnus ; et (iv) l'effet de ces deux mécanismes varie considérablement selon la manière dont le jeu de données est construit et selon la manière dont il est divisé en ensembles d'entraînement, de validation et de test.