Dynamische Bewertung von Transformator-Sprachmodellen

Diese Forschungsnotiz kombiniert zwei Methoden, die kürzlich den Stand der Technik im Bereich der Sprachmodellierung verbessert haben: Transformer und dynamische Bewertung. Transformer verwenden gestapelte Schichten von Selbst-Aufmerksamkeit (self-attention), die es ihnen ermöglichen, langfristige Abhängigkeiten in sequentiellen Daten zu erfassen. Die dynamische Bewertung passt Modelle an die jüngste Sequenzgeschichte an, was ihnen ermöglicht, wiederkehrenden sequentiellen Mustern höhere Wahrscheinlichkeiten zuzuweisen. Durch die Anwendung der dynamischen Bewertung auf Transformer-XL-Modelle verbessern wir den Stand der Technik bei enwik8 von 0,99 auf 0,94 Bits/Zeichen, bei text8 von 1,08 auf 1,04 Bits/Zeichen und bei WikiText-103 von 18,3 auf 16,4 Perplexitätspunkten.