HyperAIHyperAI

Command Palette

Search for a command to run...

Levenshtein Transformer

Jiatao Gu; Changhan Wang; Jake Zhao

Résumé

Les modèles modernes de génération de séquences neurales sont conçus pour générer des jetons étape par étape à partir de zéro ou (itérativement) modifier une séquence de jetons limitée par une longueur fixe. Dans cette étude, nous développons le Levenshtein Transformer, un nouveau modèle partiellement autorégressif conçu pour une génération de séquences plus flexible et adaptée. Contrairement aux approches précédentes, les opérations atomiques de notre modèle sont l'insertion et la suppression. Leur combinaison facilite non seulement la génération mais aussi le raffinement des séquences, permettant des modifications dynamiques de la longueur. Nous proposons également un ensemble de nouvelles techniques d'entraînement dédiées à ces opérations, exploitant efficacement l'une comme signal d'apprentissage pour l'autre grâce à leur nature complémentaire. Les expériences menées en appliquant le modèle proposé atteignent des performances comparables mais avec une efficacité considérablement améliorée dans les tâches de génération (par exemple, traduction automatique, résumé de texte) et de raffinement (par exemple, édition post-automatique). Nous confirmons davantage la flexibilité de notre modèle en montrant qu'un Levenshtein Transformer entraîné pour la traduction automatique peut être utilisé directement pour l'édition post-automatique.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp