Komprimierende Transformers für die Modellierung langreichweiter Sequenzen

Wir stellen den Compressive Transformer vor, ein auf Aufmerksamkeit basierendes Sequenzmodell, das vergangene Erinnerungen komprimiert, um die Lernung von langen Sequenzen zu ermöglichen. Wir beobachten, dass der Compressive Transformer state-of-the-art-Ergebnisse im Bereich der Sprachmodellierung auf den Benchmarks WikiText-103 und Enwik8 erzielt, wobei er jeweils 17,1 ppl und 0,97 bpc erreicht. Zudem zeigen wir, dass er hochfrequente Sprache effektiv modellieren kann und als Speichermechanismus für Verstärkendes Lernen (RL) eingesetzt werden kann, was an einer Objektpaarungsaufgabe demonstriert wird. Um den Bereich der langen Sequenzlernung voranzutreiben, schlagen wir einen neuen, offenen-Vokabular-Sprachmodellierungsbenchmark vor, der aus Büchern abgeleitet ist und PG-19 heißt.