HyperAIHyperAI

Command Palette

Search for a command to run...

Charakterbasiertes Sprachmodellierung mit tiefer Selbstaufmerksamkeit

Rami Al-Rfou Dokook Choe Noah Constant Mandy Guo Llion Jones

Zusammenfassung

LSTMs und andere RNN-Varianten haben bei der Zeichenbasierten Sprachmodellierung starke Leistungen gezeigt. Diese Modelle werden in der Regel mit abgeschnittener Rückwärtspropagation durch die Zeit trainiert, und es wird oft angenommen, dass ihr Erfolg auf ihrer Fähigkeit beruht, langfristige Kontexte zu speichern. In dieser Arbeit zeigen wir, dass ein tiefes (64-Schichten) Transformer-Modell mit festem Kontext die RNN-Varianten um ein großes Maß übertrifft und den aktuellen Stand der Technik auf zwei bekannten Benchmarks erreicht: 1,13 Bits pro Zeichen auf text8 und 1,06 auf enwik8. Um gute Ergebnisse bei dieser Tiefe zu erzielen, zeigen wir, dass es wichtig ist, zusätzliche Verlustfunktionen hinzuzufügen, sowohl in den Zwischenschichten des Netzes als auch an den Zwischenpositionen der Sequenz.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Charakterbasiertes Sprachmodellierung mit tiefer Selbstaufmerksamkeit | Paper | HyperAI