Apprentissage itératif de la représentation documentaire pour la synthèse avec affinage

Dans cet article, nous présentons l'Iterative Text Summarization (ITS), un modèle basé sur des itérations pour la synthèse textuelle supervisée et extractive, inspiré par l'observation qu'il est souvent nécessaire pour un humain de lire un article plusieurs fois afin de le comprendre pleinement et d'en faire une synthèse. Les approches actuelles de synthèse textuelle ne lisent un document qu'une seule fois pour générer une représentation du document, ce qui entraîne une représentation sous-optimale. Pour remédier à ce problème, nous introduisons un modèle qui affine progressivement la représentation du document au fil de plusieurs lectures. Notre modèle intègre également un mécanisme de lecture sélective qui détermine plus précisément l'ampleur avec laquelle chaque phrase doit être mise à jour. Les résultats expérimentaux sur les ensembles de données CNN/DailyMail et DUC2002 montrent que notre modèle surpasse significativement les systèmes extractifs de pointe, tant lorsqu'ils sont évalués par des machines que par des humains.