Charakterbasiertes Sprachmodellierung mit tiefer Selbstaufmerksamkeit

LSTMs und andere RNN-Varianten haben bei der Zeichenbasierten Sprachmodellierung starke Leistungen gezeigt. Diese Modelle werden in der Regel mit abgeschnittener Rückwärtspropagation durch die Zeit trainiert, und es wird oft angenommen, dass ihr Erfolg auf ihrer Fähigkeit beruht, langfristige Kontexte zu speichern. In dieser Arbeit zeigen wir, dass ein tiefes (64-Schichten) Transformer-Modell mit festem Kontext die RNN-Varianten um ein großes Maß übertrifft und den aktuellen Stand der Technik auf zwei bekannten Benchmarks erreicht: 1,13 Bits pro Zeichen auf text8 und 1,06 auf enwik8. Um gute Ergebnisse bei dieser Tiefe zu erzielen, zeigen wir, dass es wichtig ist, zusätzliche Verlustfunktionen hinzuzufügen, sowohl in den Zwischenschichten des Netzes als auch an den Zwischenpositionen der Sequenz.