HyperAIHyperAI
vor 17 Tagen

Sehr tiefe Transformers für die neuronale Maschinenübersetzung

Xiaodong Liu, Kevin Duh, Liyuan Liu, Jianfeng Gao
Sehr tiefe Transformers für die neuronale Maschinenübersetzung
Abstract

Wir untersuchen die Anwendung von sehr tiefen Transformer-Modellen für die neuronale Maschinübersetzung (Neural Machine Translation, NMT). Unter Verwendung einer einfachen, aber wirksamen Initialisierungstechnik, die die Stabilität des Trainings gewährleistet, zeigen wir, dass es möglich ist, standardmäßige Transformer-basierte Modelle mit bis zu 60 Encoder-Schichten und 12 Decoder-Schichten zu konstruieren. Diese tiefen Modelle übertrafen ihre Baseline-Modelle mit jeweils 6 Schichten um bis zu 2,5 BLEU und erreichten neue SOTA-Ergebnisse auf den Benchmark-Datenbanken WMT14 English-French (43,8 BLEU und 46,4 BLEU mit Back-Translation) sowie WMT14 English-German (30,1 BLEU). Der Quellcode und die trainierten Modelle werden öffentlich verfügbar sein unter: https://github.com/namisan/exdeep-nmt.

Sehr tiefe Transformers für die neuronale Maschinenübersetzung | Neueste Forschungsarbeiten | HyperAI