HyperAIHyperAI
il y a 11 jours

Factorisation des décisions relatives au contenu et au budget dans la synthèse abstraite de documents longs

Marcio Fonseca, Yftah Ziser, Shay B. Cohen
Factorisation des décisions relatives au contenu et au budget dans la synthèse abstraite de documents longs
Résumé

Nous soutenons que séparer la sélection du contenu de la budgétisation utilisée pour couvrir les éléments saillants améliore les performances et la généralisabilité des systèmes de résumé abstrait. Notre méthode, FactorSum, réalise cette séparation en factorisant la tâche de résumé en deux étapes via une fonction d’énergie : (1) la génération de vues abstraites du résumé ; (2) la combinaison de ces vues en un résumé final, sous réserve d’un budget et d’une guidance sur le contenu. Cette guidance peut provenir de différentes sources, notamment d’un modèle conseiller tel que BART ou BigBird, ou en mode oracle — à partir de la référence. Cette factorisation permet d’obtenir des scores ROUGE significativement plus élevés sur plusieurs benchmarks pour le résumé de documents longs, à savoir PubMed, arXiv et GovReport. Notamment, notre modèle s’avère particulièrement efficace pour l’adaptation de domaine. En n’étant entraîné qu’avec des échantillons de PubMed, il atteint un score ROUGE-1 de 46,29 sur arXiv, ce qui témoigne d’une performance remarquable, attribuable à une adaptation du budget plus flexible et à une sélection de contenu moins dépendante de la structure textuelle spécifique au domaine.

Factorisation des décisions relatives au contenu et au budget dans la synthèse abstraite de documents longs | Articles de recherche récents | HyperAI