HyperAIHyperAI

Command Palette

Search for a command to run...

Transformer-Qualität in linearer Zeit

Weizhe Hua Zihang Dai Hanxiao Liu Quoc V. Le

Zusammenfassung

Wir überprüfen erneut die Gestaltungsentscheidungen in Transformers und stellen Methoden vor, um deren Schwächen bei der Behandlung langer Sequenzen zu beheben. Zunächst schlagen wir eine einfache Schicht namens gated attention unit vor, die die Verwendung einer schwächeren Einzelkopf-Attention mit minimalen Qualitätsverlusten ermöglicht. Anschließend präsentieren wir eine lineare Approximation, die diese neue Schicht ergänzt und zugleich beschleunigerfreundlich ist und hervorragende Qualität erzielt. Das resultierende Modell, FLASH genannt, erreicht die Perplexität verbesserten Transformers sowohl bei kurzen (512) als auch bei langen (8K) Kontextlängen, wobei es bei der autoregressiven Sprachmodellierung Geschwindigkeitssteigerungen von bis zu 4,9× auf Wiki-40B und 12,1× auf PG-19 sowie bei der maskierten Sprachmodellierung eine Steigerung von 4,8× auf C4 erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp