Tiefe Wachstum für neuronale Maschinübersetzung

Während sehr tiefe neuronale Netze für Anwendungen im Bereich Computer Vision und Textklassifizierung ihre Effektivität gezeigt haben, bleibt das Problem, wie man die Netzwerk-Tiefe von neuronalen Maschinentranslationsmodellen (NMT) erhöhen kann, um die Übersetzungsqualität zu verbessern, eine herausfordernde Aufgabe. Das direkte Hinzufügen weiterer Blöcke zum NMT-Modell führt nicht zu Verbesserungen und kann sogar die Leistung verschlechtern. In dieser Arbeit schlagen wir einen effektiven zweistufigen Ansatz mit drei speziell entwickelten Komponenten vor, um tiefere NMT-Modelle zu konstruieren. Dies führt zu erheblichen Verbesserungen im Vergleich zu den starken Transformer-Baselines bei den Übersetzungsaufgaben WMT$14$ Englisch$\to$Deutsch und Englisch$\to$Französisch\footnote{Unser Code ist unter \url{https://github.com/apeterswu/Depth_Growing_NMT} verfügbar}.