vor 2 Monaten

Levenshtein-Transformer

Jiatao Gu; Changhan Wang; Jake Zhao

Abstract

Moderne neuronale Sequenzgenerierungsmodelle sind entweder zum schrittweisen Erzeugen von Token aus der Grundlage oder zur (iterativen) Modifikation einer Token-Sequenz innerhalb einer festen Länge konzipiert. In dieser Arbeit entwickeln wir den Levenshtein-Transformer, ein neues teilweise autoregressives Modell, das für eine flexiblere und zugänglichere Sequenzgenerierung ausgelegt ist. Im Gegensatz zu früheren Ansätzen sind die atomaren Operationen unseres Modells Einfügung und Löschung. Ihre Kombination ermöglicht nicht nur die Generierung, sondern auch die Verfeinerung von Sequenzen, wobei dynamische Längenänderungen erlaubt sind. Wir schlagen zudem eine Reihe neuer Trainingsmethoden vor, die auf diese Operationen abgestimmt sind und dank ihrer komplementären Natur effektiv als Lernsignale füreinander genutzt werden können. Experimente mit dem vorgeschlagenen Modell erzielen vergleichbare Leistungen, aber deutlich verbesserte Effizienz sowohl bei Generierungsaufgaben (z.B. maschinelle Übersetzung, Textzusammenfassung) als auch bei Verfeinerungsaufgaben (z.B. automatische Nachbearbeitung). Wir bestätigen zudem die Flexibilität unseres Modells durch die Demonstration, dass ein Levenshtein-Transformer, der für maschinelle Übersetzung trainiert wurde, problemlos für automatische Nachbearbeitung eingesetzt werden kann.