HyperAIHyperAI
il y a 2 mois

Mécanisme de copie et formation ciblée pour la génération de texte à partir de données basées sur les caractères

Marco Roberti; Giovanni Bonetta; Rossella Cancelliere; Patrick Gallinari
Mécanisme de copie et formation ciblée pour la génération de texte à partir de données basées sur les caractères
Résumé

Ces dernières années, de nombreuses méthodes différentes se sont concentrées sur l'utilisation de réseaux neuronaux profonds récurrents pour la génération de langage naturel. Les méthodes neuronales séquence-à-séquence les plus couramment utilisées sont basées sur les mots : elles nécessitent donc une étape de prétraitement appelée déléxicalisation (et, à l'inverse, réléxicalisation) pour gérer les mots peu communs ou inconnus. Cependant, ces formes de traitement conduisent à des modèles qui dépendent du vocabulaire utilisé et ne sont pas entièrement neuronaux.Dans ce travail, nous présentons un modèle séquence-à-séquence complet avec mécanisme d'attention qui lit et génère au niveau des caractères, éliminant ainsi la nécessité de déléxicalisation, de segmentation en tokens ou même de mise en minuscules. De plus, comme les caractères constituent les éléments de base communs à tout texte, cette approche permet une méthode plus générale pour la génération de texte, facilitant l'exploitation de l'apprentissage par transfert lors de l'entraînement. Ces compétences sont acquises grâce à deux caractéristiques majeures : (i) la possibilité d'alterner entre le mécanisme de génération standard et un mécanisme de copie, ce qui permet de copier directement des faits d'entrée pour produire des sorties, et (ii) l'utilisation d'un pipeline d'entraînement original qui améliore encore la qualité des textes générés.Nous introduisons également un nouveau jeu de données appelé E2E+, conçu pour mettre en évidence les capacités de copie des modèles basés sur les caractères. Il s'agit d'une version modifiée du jeu de données E2E bien connu, utilisé dans le défi E2E. Nous avons testé notre modèle selon cinq métriques largement acceptées (y compris le BLEU largement utilisé), montrant qu'il offre des performances compétitives par rapport aux approches basées sur les caractères et celles basées sur les mots.

Mécanisme de copie et formation ciblée pour la génération de texte à partir de données basées sur les caractères | Articles de recherche récents | HyperAI