HyperAIHyperAI

Command Palette

Search for a command to run...

Dynamische Bewertung von Transformator-Sprachmodellen

Ben Krause Emmanuel Kahembwe Iain Murray Steve Renals

Zusammenfassung

Diese Forschungsnotiz kombiniert zwei Methoden, die kürzlich den Stand der Technik im Bereich der Sprachmodellierung verbessert haben: Transformer und dynamische Bewertung. Transformer verwenden gestapelte Schichten von Selbst-Aufmerksamkeit (self-attention), die es ihnen ermöglichen, langfristige Abhängigkeiten in sequentiellen Daten zu erfassen. Die dynamische Bewertung passt Modelle an die jüngste Sequenzgeschichte an, was ihnen ermöglicht, wiederkehrenden sequentiellen Mustern höhere Wahrscheinlichkeiten zuzuweisen. Durch die Anwendung der dynamischen Bewertung auf Transformer-XL-Modelle verbessern wir den Stand der Technik bei enwik8 von 0,99 auf 0,94 Bits/Zeichen, bei text8 von 1,08 auf 1,04 Bits/Zeichen und bei WikiText-103 von 18,3 auf 16,4 Perplexitätspunkten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp