Multi-News : un grand ensemble de données pour la synthèse automatique multi-document et un modèle hiérarchique abstrait

La génération automatique de résumés à partir de plusieurs articles de presse est un outil précieux alors que le nombre de publications en ligne augmente rapidement. Les systèmes de résumé de document unique (SDS) ont bénéficié des progrès réalisés dans les modèles d'encodeur-décodeur neuronaux grâce à la disponibilité de grands ensembles de données. Cependant, le résumé de documents multiples (MDS) d'articles de presse a été limité à des ensembles de données ne comprenant que quelques centaines d'exemples. Dans cet article, nous présentons Multi-News, le premier ensemble de données MDS à grande échelle pour les actualités. De plus, nous proposons un modèle end-to-end qui intègre un modèle traditionnel de résumé extractif avec un modèle SDS standard et obtient des résultats compétitifs sur les ensembles de données MDS. Nous évaluons plusieurs méthodes sur Multi-News et mettons nos données et notre code à disposition dans l'espoir que ce travail favorisera les avancées dans le domaine du résumé de documents multiples.