vor 17 Tagen

Hyänen-Hierarchie: Ein Schritt hin zu größeren konvolutionellen Sprachmodellen

Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao, Stephen Baccus, Yoshua Bengio, Stefano Ermon, Christopher Ré

Details der Forschungsarbeit anzeigen

Hyänen-Hierarchie: Ein Schritt hin zu größeren konvolutionellen Sprachmodellen

Abstract

Neuere Fortschritte im Bereich des tiefen Lernens beruhen stark auf der Verwendung großer Transformers, da diese in der Lage sind, skalierbar zu lernen. Allerdings weist der zentrale Baustein von Transformers, der Aufmerksamkeitsoperator, eine quadratische Kostenkomplexität bezüglich der Sequenzlänge auf, was die Menge an zugänglichem Kontext begrenzt. Bestehende subquadratische Ansätze, die auf niedrigrangigen und sparsamen Approximationen basieren, müssen mit dichten Aufmerksamkeitslagen kombiniert werden, um die Leistung von Transformers zu erreichen, was auf eine bestehende Leistungslücke hinweist. In dieser Arbeit stellen wir Hyena vor, einen subquadratischen, nahtlos einsetzbaren Ersatz für die Aufmerksamkeit, der durch die Interleaving implizit parametrisierter langer Faltungen und datenkontrollierter Gating-Operationen konstruiert ist. Auf Erinnerungs- und Schlussfolgerungsaufgaben mit Sequenzen von Tausenden bis Hunderttausenden Tokens übertrifft Hyena die Genauigkeit um mehr als 50 Punkte gegenüber Operatoren, die auf Zustandsraummodellen und anderen impliziten sowie expliziten Methoden basieren, und erreicht die Leistung von auf Aufmerksamkeit basierenden Modellen. Wir etablieren eine neue State-of-the-Art-Leistung für dichte-Aufmerksamkeits-freie Architekturen im Bereich der Sprachmodellierung auf Standarddatensätzen (WikiText103 und The Pile), wobei wir die Qualität von Transformers mit 20 % weniger Trainingsrechenleistung bei einer Sequenzlänge von 2K erreichen. Hyena-Operatoren sind bei einer Sequenzlänge von 8K doppelt so schnell wie hochoptimierte Aufmerksamkeitsoperationen und bei einer Sequenzlänge von 64K sogar 100-mal schneller.