Réseau d'Attention avec Anticipation Syntaxique pour la Compression de Phrases

La compression de phrases est la tâche consistant à réduire une phrase longue en une phrase courte en supprimant les mots redondants. Dans les modèles basés sur la séquence à séquence (Seq2Seq), le décodeur décide unidirectionnellement de conserver ou de supprimer des mots. Par conséquent, il ne peut généralement pas capturer explicitement les relations entre les mots décodés et ceux qui seront décodés lors des étapes futures. Ainsi, pour éviter la génération de phrases non grammaticalement correctes, le décodeur peut parfois omettre des mots importants lors de la compression des phrases. Pour résoudre ce problème, nous proposons un nouveau modèle Seq2Seq, le réseau d'attention syntaxique anticipatrice (SLAHAN), capable de générer des résumés informatifs en suivant explicitement les mots parents et enfants dans les relations de dépendance pendant le décodage, et en capturant les mots importants qui seront décodés à l'avenir. Les résultats de l'évaluation automatique sur l'ensemble de données de compression de phrases Google ont montré que SLAHAN a obtenu les meilleurs scores F1 basés sur les tokens conservés, ROUGE-1, ROUGE-2 et ROUGE-L respectivement de 85,5, 79,3, 71,3 et 79,1. SLAHAN a également amélioré les performances de résumé pour des phrases plus longues. De plus, lors de l'évaluation humaine, SLAHAN a amélioré l'informativité sans compromettre la lisibilité.