Considération de la structure arborescente imbriquée dans la synthèse de phrases par extraction à l’aide de transformateurs pré-entraînés

La synthèse par extraction de phrases consiste à réduire un document en sélectionnant des phrases pertinentes pour former un résumé tout en préservant ses contenus essentiels. Toutefois, la construction d’un résumé cohérent et informatif s’avère difficile lorsqu’on utilise un encodeur pré-entraîné basé sur BERT, car ce dernier n’est pas explicitement conçu pour représenter l’information contenue dans les phrases d’un document. Nous proposons un modèle d’extraction de phrases basé sur une structure arborescente imbriquée sur RoBERTa (NeRoBERTa), où les structures arborescentes imbriquées intègrent à la fois des arbres syntaxiques et des arbres discursifs présents dans un document donné. Les résultats expérimentaux sur le jeu de données CNN/DailyMail montrent que NeRoBERTa surpasser les modèles de base en termes de scores ROUGE. Les évaluations effectuées par des humains indiquent également que NeRoBERTa obtient des scores significativement meilleurs que les modèles de base en matière de cohérence, tout en atteignant des performances comparables aux modèles de pointe.