Sehr tiefe Transformers für die neuronale Maschinenübersetzung

Wir untersuchen die Anwendung von sehr tiefen Transformer-Modellen für die neuronale Maschinübersetzung (Neural Machine Translation, NMT). Unter Verwendung einer einfachen, aber wirksamen Initialisierungstechnik, die die Stabilität des Trainings gewährleistet, zeigen wir, dass es möglich ist, standardmäßige Transformer-basierte Modelle mit bis zu 60 Encoder-Schichten und 12 Decoder-Schichten zu konstruieren. Diese tiefen Modelle übertrafen ihre Baseline-Modelle mit jeweils 6 Schichten um bis zu 2,5 BLEU und erreichten neue SOTA-Ergebnisse auf den Benchmark-Datenbanken WMT14 English-French (43,8 BLEU und 46,4 BLEU mit Back-Translation) sowie WMT14 English-German (30,1 BLEU). Der Quellcode und die trainierten Modelle werden öffentlich verfügbar sein unter: https://github.com/namisan/exdeep-nmt.