Command Palette
Search for a command to run...
Tiefe Wachstum für neuronale Maschinübersetzung
Tiefe Wachstum für neuronale Maschinübersetzung
Lijun Wu extsuperscript1,* Yiren Wang extsuperscript2,* Yingce Xia extsuperscript3,† Fei Tian extsuperscript3 Fei Gao extsuperscript3 Tao Qin extsuperscript3 Jianhuang Lai extsuperscript1 Tie-Yan Liu extsuperscript3
Zusammenfassung
Während sehr tiefe neuronale Netze für Anwendungen im Bereich Computer Vision und Textklassifizierung ihre Effektivität gezeigt haben, bleibt das Problem, wie man die Netzwerk-Tiefe von neuronalen Maschinentranslationsmodellen (NMT) erhöhen kann, um die Übersetzungsqualität zu verbessern, eine herausfordernde Aufgabe. Das direkte Hinzufügen weiterer Blöcke zum NMT-Modell führt nicht zu Verbesserungen und kann sogar die Leistung verschlechtern. In dieser Arbeit schlagen wir einen effektiven zweistufigen Ansatz mit drei speziell entwickelten Komponenten vor, um tiefere NMT-Modelle zu konstruieren. Dies führt zu erheblichen Verbesserungen im Vergleich zu den starken Transformer-Baselines bei den Übersetzungsaufgaben WMT14 Englisch→Deutsch und Englisch→Französisch\footnote{Unser Code ist unter \url{https://github.com/apeterswu/Depth_Growing_NMT} verfügbar}.