Syntaxverstärkte neuronale Maschinenübersetzung mit syntaxbewussten Wortrepräsentationen

Die Syntax hat sich bei der neuronalen maschinellen Übersetzung (NMT) als hoch effektiv erwiesen. Frühere NMT-Modelle integrieren die Syntax durch die Darstellung der besten Baumausgaben eines gut trainierten Parsing-Systems, z.B. die repräsentativen Tree-RNN und Tree-Linearization Methoden, welche unter Fehlerfortpflanzung leiden können. In dieser Arbeit schlagen wir eine neuartige Methode vor, um die Syntax implizit auf der Quellenseite für NMT zu integrieren. Das grundlegende Konzept besteht darin, die Zwischenhidden-Repräsentationen eines gut trainierten End-to-End Abhängigkeitsparsers zu verwenden, welche als syntaxbewusste Wortrepräsentationen (SAWRs) bezeichnet werden. Anschließend fügen wir diese SAWRs einfach den gewöhnlichen Word-Embeddings hinzu, um grundlegende NMT-Modelle zu verbessern. Die Methode kann direkt in die weit verbreiteten sequenzbasierten (Seq2Seq) NMT-Modelle integriert werden. Wir beginnen mit einem repräsentativen RNN-basierten Seq2Seq Baseline-System und testen die Effektivität unserer vorgeschlagenen Methode anhand zweier Benchmark-Datensätze für die ÜbersetzungsAufgaben Chinesisch-Englisch und Englisch-Vietnamesisch. Die experimentellen Ergebnisse zeigen, dass der vorgeschlagene Ansatz im Vergleich zum Baseline signifikante Verbesserungen des BLEU-Scores auf beiden Datensätzen erzielen kann: 1,74 Punkte für die Chinesisch-Englische Übersetzung und 0,80 Punkt für die Englisch-Vietnamesische Übersetzung. Zudem übertrifft der Ansatz auch die expliziten Tree-RNN und Tree-Linearization Methoden.