HyperAIHyperAI

Command Palette

Search for a command to run...

Modèle CRF neuronal pour l'alignement de phrases dans la simplification de texte

Chao Jiang Mounica Maddela Wuwei Lan Yang Zhong Wei Xu

Résumé

Le succès d’un système de simplification de texte dépend fortement de la qualité et de la quantité des paires de phrases complexes-simples présentes dans le corpus d’entraînement, celles-ci étant extraites en alignant les phrases entre des articles parallèles. Pour évaluer et améliorer la qualité de l’alignement des phrases, nous avons créé deux jeux de données manuellement annotés d’alignement de phrases à partir de deux corpus couramment utilisés pour la simplification de texte : Newsela et Wikipedia. Nous proposons un nouveau modèle d’alignement basé sur un CRF neuronal qui exploite à la fois la nature séquentielle des phrases dans les documents parallèles et utilise un modèle neuronal de paires de phrases pour capturer la similarité sémantique. Les expériences montrent que notre approche surpasse toutes les méthodes précédentes sur la tâche d’alignement monolingue de phrases d’au moins 5 points en F1. Nous appliquons notre aligneur CRF pour construire deux nouveaux jeux de données de simplification de texte, Newsela-Auto et Wiki-Auto, qui sont significativement plus volumineux et de meilleure qualité que les jeux de données existants. Un modèle seq2seq basé sur Transformer entraîné sur nos jeux de données établit une nouvelle référence (state-of-the-art) en matière de simplification de texte, tant selon les évaluations automatiques que selon les évaluations humaines.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp