Integration von BERT in neuronale Maschinenübersetzung

Der kürzlich vorgeschlagene BERT hat sich bei einer Vielzahl von Aufgaben des natürlichen Sprachverstehens als äußerst leistungsfähig erwiesen, beispielsweise bei der Textklassifikation, dem Leseverständnis und ähnlichen Aufgaben. Dennoch wurde die effektive Anwendung von BERT auf neuronale maschinelle Übersetzung (NMT) bisher noch nicht ausreichend erforscht. Während BERT in der Regel für das Fine-Tuning statt für die Erzeugung kontextualisierter Embeddings bei nachgeschalteten Sprachverstehensaufgaben eingesetzt wird, zeigte unsere vorläufige Untersuchung, dass die Verwendung von BERT als kontextuelle Embedding-Quelle in der NMT gegenüber dem Fine-Tuning überlegen ist. Dies motiviert uns, weiter zu erforschen, wie BERT in dieser Richtung noch effizienter für die NMT genutzt werden kann. Wir schlagen ein neues Verfahren namens BERT-fused-Modell vor, bei dem zunächst BERT zur Extraktion von Repräsentationen einer Eingabefolge verwendet wird, die anschließend über Aufmerksamkeitsmechanismen mit jeder Schicht des Encoders und Decoders des NMT-Modells fusioniert werden. Wir führen Experimente auf überwachten (einschließlich Satz- und Dokumentebene), halbüberwachten und unüberwachten maschinellen Übersetzungs-Aufgaben durch und erreichen auf sieben Benchmark-Datensätzen Ergebnisse auf State-of-the-Art-Niveau. Unser Code ist unter \url{https://github.com/bert-nmt/bert-nmt} verfügbar.