HyperAIHyperAI
vor 4 Monaten

Tiefe Wachstum für neuronale Maschinübersetzung

Lijun Wu; Yiren Wang; Yingce Xia; Fei Tian; Fei Gao; Tao Qin; Jianhuang Lai; Tie-Yan Liu
Tiefe Wachstum für neuronale Maschinübersetzung
Abstract

Während sehr tiefe neuronale Netze für Anwendungen im Bereich Computer Vision und Textklassifizierung ihre Effektivität gezeigt haben, bleibt das Problem, wie man die Netzwerk-Tiefe von neuronalen Maschinentranslationsmodellen (NMT) erhöhen kann, um die Übersetzungsqualität zu verbessern, eine herausfordernde Aufgabe. Das direkte Hinzufügen weiterer Blöcke zum NMT-Modell führt nicht zu Verbesserungen und kann sogar die Leistung verschlechtern. In dieser Arbeit schlagen wir einen effektiven zweistufigen Ansatz mit drei speziell entwickelten Komponenten vor, um tiefere NMT-Modelle zu konstruieren. Dies führt zu erheblichen Verbesserungen im Vergleich zu den starken Transformer-Baselines bei den Übersetzungsaufgaben WMT$14$ Englisch$\to$Deutsch und Englisch$\to$Französisch\footnote{Unser Code ist unter \url{https://github.com/apeterswu/Depth_Growing_NMT} verfügbar}.