Transformer-Qualität in linearer Zeit

Wir überprüfen erneut die Gestaltungsentscheidungen in Transformers und stellen Methoden vor, um deren Schwächen bei der Behandlung langer Sequenzen zu beheben. Zunächst schlagen wir eine einfache Schicht namens gated attention unit vor, die die Verwendung einer schwächeren Einzelkopf-Attention mit minimalen Qualitätsverlusten ermöglicht. Anschließend präsentieren wir eine lineare Approximation, die diese neue Schicht ergänzt und zugleich beschleunigerfreundlich ist und hervorragende Qualität erzielt. Das resultierende Modell, FLASH genannt, erreicht die Perplexität verbesserten Transformers sowohl bei kurzen (512) als auch bei langen (8K) Kontextlängen, wobei es bei der autoregressiven Sprachmodellierung Geschwindigkeitssteigerungen von bis zu 4,9× auf Wiki-40B und 12,1× auf PG-19 sowie bei der maskierten Sprachmodellierung eine Steigerung von 4,8× auf C4 erzielt.