HyperAIHyperAI

Command Palette

Search for a command to run...

Reformer: Der effiziente Transformer

Nikita Kitaev Łukasz Kaiser Anselm Levskaya

Zusammenfassung

Große Transformer-Modelle erreichen regelmäßig state-of-the-art-Ergebnisse bei einer Vielzahl von Aufgaben, doch deren Training kann besonders bei langen Sequenzen prohibitiv kostspielig sein. Wir stellen zwei Techniken vor, die die Effizienz von Transformers verbessern. Erstens ersetzen wir das Dot-Product-Attention durch ein Verfahren, das locality-sensitive Hashing nutzt, wodurch die Komplexität von O(L2L^2L2) auf O(LlogLL\log LLlogL) gesenkt wird, wobei LLL die Länge der Sequenz bezeichnet. Zweitens verwenden wir reversible Residual-Layers anstelle der herkömmlichen Residual-Verbindungen, wodurch die Speicherung von Aktivierungen während des Trainings nur einmal statt NNN-mal erfolgt, wobei NNN die Anzahl der Schichten ist. Das resultierende Modell, der Reformer, erzielt Leistungen, die mit denen von klassischen Transformer-Modellen vergleichbar sind, ist jedoch deutlich speichereffizienter und bei langen Sequenzen erheblich schneller.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Reformer: Der effiziente Transformer | Paper | HyperAI