Command Palette
Search for a command to run...
Modèles d'attention de grossier à fin pour la synthèse de documents
Modèles d'attention de grossier à fin pour la synthèse de documents
er Alex Rush Jeffrey Ling
Résumé
Les modèles séquence-à-séquence avec attention ont connu un succès pour de nombreuses tâches de traitement du langage naturel (NLP), mais leur vitesse ne se généralise pas efficacement aux tâches impliquant des séquences sources longues, telles que la résumé de documents. Nous proposons un nouveau modèle d’attention à deux niveaux (coarse-to-fine) qui lit hiérarchiquement un document : une attention grossière sélectionne d’abord les principaux blocs textuels, puis une attention fine analyse les mots de ces blocs sélectionnés. Alors que le coût computationnel des modèles d’attention standards croît linéairement avec la longueur de la séquence source, notre méthode dépend principalement du nombre de blocs de haut niveau, ce qui lui permet de traiter des séquences bien plus longues. Expérimentalement, bien que les modèles à attention coarse-to-fine soient encore en retrait par rapport aux meilleures méthodes actuelles, notre approche parvient à reproduire le comportement souhaité d’une attention éparses sur des sous-ensembles du document lors de la génération.