HyperAIHyperAI
il y a 15 jours

Résumé de documents longs par inférence haut-bas et bas-haut

Bo Pang, Erik Nijkamp, Wojciech Kryściński, Silvio Savarese, Yingbo Zhou, Caiming Xiong
Résumé de documents longs par inférence haut-bas et bas-haut
Résumé

La résumé automatique vise à condenser des documents longs tout en conservant les informations clés. Un facteur déterminant du succès d’un modèle de résumé réside dans la capacité à inférer fidèlement les représentations latentes des mots ou des tokens dans les documents sources. La plupart des modèles récents exploitent un encodeur Transformer pour cette inférence, qui fonctionne de manière purement ascendante (bottom-up). De plus, les modèles basés sur l’attention auto-attention rencontrent un défi majeur lié à une complexité quadratique par rapport à la longueur de la séquence. Nous proposons un cadre d’inférence rigoureux afin d’améliorer les modèles de résumé sur ces deux aspects. Notre cadre suppose une structure latente hiérarchique du document, où le niveau supérieur capture les dépendances à longue portée à une échelle temporelle plus grossière, tandis que le niveau inférieur (au niveau des tokens) préserve les détails fins. De manière cruciale, cette structure hiérarchique permet aux représentations des tokens d’être mises à jour à la fois de manière ascendante et descendante (top-down). Lors du passage ascendante, les représentations des tokens sont inférées à l’aide d’une attention locale auto-attention, exploitant ainsi son efficacité. Une correction descendante est ensuite appliquée afin de permettre aux tokens de capturer les dépendances à longue portée. Nous démontrons l’efficacité de ce cadre proposé sur une diversité de jeux de données de résumé, incluant des documents narratifs, conversationnels, scientifiques et journalistiques. Notre modèle atteint (1) des performances compétitives ou supérieures sur les documents courts, avec une efficacité accrue en mémoire et en calcul par rapport aux Transformers à attention complète, et (2) des performances de pointe sur une large gamme de benchmarks de résumé de documents longs, comparé aux Transformers efficaces récents. Nous montrons également que notre modèle peut résumer un roman entier, tout en atteignant des performances compétitives avec seulement 0,27 % des paramètres (464M contre 175B) et bien moins de données d’entraînement qu’un modèle récent basé sur GPT-3. Ces résultats soulignent la généralité et les avantages du cadre proposé.

Résumé de documents longs par inférence haut-bas et bas-haut | Articles de recherche récents | HyperAI