HyperAIHyperAI

Command Palette

Search for a command to run...

Hyänen-Hierarchie: Ein Schritt hin zu größeren konvolutionellen Sprachmodellen

Michael Poli Stefano Massaroli Eric Nguyen Daniel Y. Fu Tri Dao Stephen Baccus Yoshua Bengio Stefano Ermon Christopher Ré

Zusammenfassung

Neuere Fortschritte im Bereich des tiefen Lernens beruhen stark auf der Verwendung großer Transformers, da diese in der Lage sind, skalierbar zu lernen. Allerdings weist der zentrale Baustein von Transformers, der Aufmerksamkeitsoperator, eine quadratische Kostenkomplexität bezüglich der Sequenzlänge auf, was die Menge an zugänglichem Kontext begrenzt. Bestehende subquadratische Ansätze, die auf niedrigrangigen und sparsamen Approximationen basieren, müssen mit dichten Aufmerksamkeitslagen kombiniert werden, um die Leistung von Transformers zu erreichen, was auf eine bestehende Leistungslücke hinweist. In dieser Arbeit stellen wir Hyena vor, einen subquadratischen, nahtlos einsetzbaren Ersatz für die Aufmerksamkeit, der durch die Interleaving implizit parametrisierter langer Faltungen und datenkontrollierter Gating-Operationen konstruiert ist. Auf Erinnerungs- und Schlussfolgerungsaufgaben mit Sequenzen von Tausenden bis Hunderttausenden Tokens übertrifft Hyena die Genauigkeit um mehr als 50 Punkte gegenüber Operatoren, die auf Zustandsraummodellen und anderen impliziten sowie expliziten Methoden basieren, und erreicht die Leistung von auf Aufmerksamkeit basierenden Modellen. Wir etablieren eine neue State-of-the-Art-Leistung für dichte-Aufmerksamkeits-freie Architekturen im Bereich der Sprachmodellierung auf Standarddatensätzen (WikiText103 und The Pile), wobei wir die Qualität von Transformers mit 20 % weniger Trainingsrechenleistung bei einer Sequenzlänge von 2K erreichen. Hyena-Operatoren sind bei einer Sequenzlänge von 8K doppelt so schnell wie hochoptimierte Aufmerksamkeitsoperationen und bei einer Sequenzlänge von 64K sogar 100-mal schneller.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Hyänen-Hierarchie: Ein Schritt hin zu größeren konvolutionellen Sprachmodellen | Paper | HyperAI