Blick-Transformer für nicht-autoregressive neuronale maschinelle Übersetzung

Neuere Arbeiten im Bereich der nicht-autoregressiven neuronalen Maschinübersetzung (NAT) zielen darauf ab, die Effizienz durch parallele Dekodierung zu verbessern, ohne die Übersetzungsqualität zu beeinträchtigen. Allerdings sind bestehende NAT-Verfahren entweder der Transformer-Methode unterlegen oder erfordern mehrere Dekodierdurchläufe, was die Geschwindigkeitssteigerung verringert. Wir stellen das Glancing Language Model (GLM) vor, eine Methode zur Lernung von Wort-Interdependenzen für Einzelpass-Parallelgenerierungsmodelle. Mit GLM entwickeln wir den Glancing Transformer (GLAT) für die Maschinübersetzung. Unter Verwendung lediglich eines einzigen parallelen Dekodierungsdurchlaufs ist GLAT in der Lage, hochwertige Übersetzungen mit einer Geschwindigkeitssteigerung um das 8- bis 15-fache zu generieren. Experimente an mehreren WMT-Sprachrichtungen zeigen, dass GLAT alle vorherigen Einzelpass-NAT-Methoden übertrifft und nahe an der Leistung von Transformer liegt, wobei der Abstand auf lediglich 0,25 bis 0,9 BLEU-Punkte reduziert wird.