Pré-entraînement Rencontre Clusterisation : Un Modèle Hybride d'Extraction pour la Résumé Multi-documents
À une époque où une quantité massive d’informations a envahi Internet, l’extraction manuelle et la consommation de données pertinentes s’avèrent extrêmement difficiles et chronophages. Il est donc essentiel de disposer d’un outil automatisé de résumé de documents afin d’extraire les informations clés à partir d’un ensemble de documents abordant des sujets similaires ou liés. Le résumé multi-documents permet de récupérer le contenu important et pertinent provenant de plusieurs documents tout en minimisant les redondances. Dans cette étude, un système de résumé de texte multi-documents est développé en utilisant une approche non supervisée basée sur l’extraction. Le modèle proposé repose sur une fusion de deux paradigmes d’apprentissage : le modèle pré-entraîné T5 basé sur les transformateurs et l’algorithme de clustering K-Means. Des expérimentations ont été menées sur le corpus de référence d’articles d’actualité, le Document Understanding Conference (DUC2004). Les métriques d’évaluation ROUGE ont été utilisées pour mesurer les performances de l’approche proposée sur DUC2004. Les résultats confirment que le modèle proposé présente une amélioration significative par rapport aux méthodes non supervisées de pointe existantes.