HyperAIHyperAI
il y a 11 jours

Une approche par division et conquête pour la synthèse de documents longs

Alexios Gidiotis, Grigorios Tsoumakas
Une approche par division et conquête pour la synthèse de documents longs
Résumé

Nous présentons une nouvelle méthode de type « diviser pour régner » pour la synthèse automatique de documents longs à l’aide de réseaux neuronaux. Notre approche exploite la structure discursive du document et utilise la similarité entre phrases pour décomposer le problème en un ensemble de sous-problèmes de synthèse plus petits. Plus précisément, nous décomposons un document long ainsi que sa synthèse en plusieurs paires source-cible, qui sont utilisées pour entraîner un modèle capable d’apprendre à synthétiser chaque partie du document de manière indépendante. Ces synthèses partielles sont ensuite combinées afin de produire une synthèse finale complète. Grâce à cette approche, nous pouvons décomposer le problème de la synthèse de documents longs en sous-problèmes plus petits et plus simples, réduisant ainsi la complexité computationnelle tout en générant davantage d’exemples d’entraînement, lesquels contiennent toutefois moins de bruit dans les synthèses cibles par rapport à l’approche classique. Nous démontrons que cette méthode, combinée à divers modèles de synthèse — notamment des réseaux récurrents séquentiels (RNN) et des Transformers — permet d’améliorer les performances de synthèse. Nos meilleurs modèles atteignent des résultats comparables aux états de l’art sur deux jeux de données publiques de publications académiques.

Une approche par division et conquête pour la synthèse de documents longs | Articles de recherche récents | HyperAI