Amélioration de l'abstraction dans la synthèse de texte

La synthèse abstraite de texte vise à réduire la longueur des documents textuels en une forme lisible par l'homme qui contient les faits les plus importants du document d'origine. Cependant, le niveau d'abstraction réel, mesuré par des phrases novatrices qui n'apparaissent pas dans le document source, reste faible dans les approches existantes. Nous proposons deux techniques pour améliorer le niveau d'abstraction des résumés générés. Premièrement, nous décomposons le décodeur en un réseau contextuel qui récupère les parties pertinentes du document source, et un modèle de langage préentraîné qui intègre des connaissances antérieures sur la génération de langage. Deuxièmement, nous introduisons une métrique de nouveauté qui est optimisée directement par apprentissage par politiques pour encourager la génération de phrases novatrices. Notre modèle obtient des résultats comparables à ceux des modèles de pointe, comme en témoignent les scores ROUGE et les évaluations humaines, tout en atteignant un niveau d'abstraction significativement plus élevé, mesuré par le chevauchement n-gramme avec le document source.