vor 2 Monaten

Nicht-sequenzielle neuronale Maschinenübersetzung

Jiatao Gu; James Bradbury; Caiming Xiong; Victor O.K. Li; Richard Socher

Abstract

Bestehende Ansätze zur neuronalen maschinellen Übersetzung bedingen jedes Ausgabewort auf vorher erzeugte Ausgaben. Wir stellen ein Modell vor, das diese autoregressive Eigenschaft vermeidet und seine Ausgaben parallel erzeugt, was während der Inferenz eine um ein Vielfaches geringere Latenz ermöglicht. Durch Wissensdistillierung, die Verwendung von Eingabetoken-Fertilitäten als latente Variable und Policy-Gradienten Feinabstimmung erreichen wir dies mit einem Verlust von nur 2,0 BLEU-Punkten im Vergleich zum autoregressiven Transformer-Netzwerk, das als Lehrer verwendet wird. Wir zeigen erhebliche kumulative Verbesserungen, die mit jeder der drei Aspekte unserer Trainingsstrategie verbunden sind, und validieren unseren Ansatz anhand des IWSLT 2016 Englisch-Deutsch-Korpus sowie zweier WMT-Sprachpaare. Durch paralleles Sampeln von Fertilitäten während der Inferenz erreicht unser nicht-autoregressives Modell nahezu den aktuellen Stand der Technik mit einer BLEU-Wertung von 29,8 bei WMT 2016 Englisch-Rumänisch.