HyperAIHyperAI
il y a 16 jours

Modèle CRF neuronal pour l'alignement de phrases dans la simplification de texte

Chao Jiang, Mounica Maddela, Wuwei Lan, Yang Zhong, Wei Xu
Modèle CRF neuronal pour l'alignement de phrases dans la simplification de texte
Résumé

Le succès d’un système de simplification de texte dépend fortement de la qualité et de la quantité des paires de phrases complexes-simples présentes dans le corpus d’entraînement, celles-ci étant extraites en alignant les phrases entre des articles parallèles. Pour évaluer et améliorer la qualité de l’alignement des phrases, nous avons créé deux jeux de données manuellement annotés d’alignement de phrases à partir de deux corpus couramment utilisés pour la simplification de texte : Newsela et Wikipedia. Nous proposons un nouveau modèle d’alignement basé sur un CRF neuronal qui exploite à la fois la nature séquentielle des phrases dans les documents parallèles et utilise un modèle neuronal de paires de phrases pour capturer la similarité sémantique. Les expériences montrent que notre approche surpasse toutes les méthodes précédentes sur la tâche d’alignement monolingue de phrases d’au moins 5 points en F1. Nous appliquons notre aligneur CRF pour construire deux nouveaux jeux de données de simplification de texte, Newsela-Auto et Wiki-Auto, qui sont significativement plus volumineux et de meilleure qualité que les jeux de données existants. Un modèle seq2seq basé sur Transformer entraîné sur nos jeux de données établit une nouvelle référence (state-of-the-art) en matière de simplification de texte, tant selon les évaluations automatiques que selon les évaluations humaines.

Modèle CRF neuronal pour l'alignement de phrases dans la simplification de texte | Articles de recherche récents | HyperAI