HyperAIHyperAI
il y a 2 mois

Levenshtein Transformer

Jiatao Gu; Changhan Wang; Jake Zhao
Levenshtein Transformer
Résumé

Les modèles modernes de génération de séquences neurales sont conçus pour générer des jetons étape par étape à partir de zéro ou (itérativement) modifier une séquence de jetons limitée par une longueur fixe. Dans cette étude, nous développons le Levenshtein Transformer, un nouveau modèle partiellement autorégressif conçu pour une génération de séquences plus flexible et adaptée. Contrairement aux approches précédentes, les opérations atomiques de notre modèle sont l'insertion et la suppression. Leur combinaison facilite non seulement la génération mais aussi le raffinement des séquences, permettant des modifications dynamiques de la longueur. Nous proposons également un ensemble de nouvelles techniques d'entraînement dédiées à ces opérations, exploitant efficacement l'une comme signal d'apprentissage pour l'autre grâce à leur nature complémentaire. Les expériences menées en appliquant le modèle proposé atteignent des performances comparables mais avec une efficacité considérablement améliorée dans les tâches de génération (par exemple, traduction automatique, résumé de texte) et de raffinement (par exemple, édition post-automatique). Nous confirmons davantage la flexibilité de notre modèle en montrant qu'un Levenshtein Transformer entraîné pour la traduction automatique peut être utilisé directement pour l'édition post-automatique.

Levenshtein Transformer | Articles de recherche récents | HyperAI