HyperAIHyperAI

Command Palette

Search for a command to run...

Komprimierende Transformers für die Modellierung langreichweiter Sequenzen

Jack W. Rae Anna Potapenko Siddhant M. Jayakumar Timothy P. Lillicrap

Zusammenfassung

Wir stellen den Compressive Transformer vor, ein auf Aufmerksamkeit basierendes Sequenzmodell, das vergangene Erinnerungen komprimiert, um die Lernung von langen Sequenzen zu ermöglichen. Wir beobachten, dass der Compressive Transformer state-of-the-art-Ergebnisse im Bereich der Sprachmodellierung auf den Benchmarks WikiText-103 und Enwik8 erzielt, wobei er jeweils 17,1 ppl und 0,97 bpc erreicht. Zudem zeigen wir, dass er hochfrequente Sprache effektiv modellieren kann und als Speichermechanismus für Verstärkendes Lernen (RL) eingesetzt werden kann, was an einer Objektpaarungsaufgabe demonstriert wird. Um den Bereich der langen Sequenzlernung voranzutreiben, schlagen wir einen neuen, offenen-Vokabular-Sprachmodellierungsbenchmark vor, der aus Büchern abgeleitet ist und PG-19 heißt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Komprimierende Transformers für die Modellierung langreichweiter Sequenzen | Paper | HyperAI