Aufmerksamkeit als RNN

Der Aufstieg der Transformers stellte einen bedeutenden Durchbruch in der Modellierung von Sequenzen dar und bot eine hochleistungsfähige Architektur, die die Parallelisierung durch GPUs effizient nutzen kann. Dennoch sind Transformers rechenintensiv bei der Inferenz, was ihre Anwendbarkeit einschränkt, insbesondere in ressourcenarmen Umgebungen (z. B. mobilen und eingebetteten Geräten). Um diesem Problem zu begegnen, zeigen wir zunächst (1), dass die Aufmerksamkeit als ein spezieller rekurrenter neuronalen Netzwerk (RNN) aufgefasst werden kann, der seinen many-to-one-RNN-Ausgabewert effizient berechnen kann. Anschließend (2) zeigen wir, dass populäre auf Aufmerksamkeit basierende Modelle wie Transformers als Varianten von RNNs betrachtet werden können. Im Gegensatz zu traditionellen RNNs (z. B. LSTMs) lassen sich diese Modelle jedoch nicht effizient mit neuen Token aktualisieren, was eine zentrale Eigenschaft in der Sequenzmodellierung darstellt. Um dies zu lösen, führen wir (3) eine neue effiziente Methode zur Berechnung der many-to-many-RNN-Ausgabe der Aufmerksamkeit basierend auf dem parallelen Präfix-Scan-Algorithmus ein. Aufbauend auf der neuen Formulierung der Aufmerksamkeit, stellen wir (4) Aaren vor, ein auf Aufmerksamkeit basierendes Modul, das nicht nur (i) parallel trainiert werden kann (wie Transformers), sondern auch (ii) effizient mit neuen Token aktualisiert werden kann und bei der Inferenz lediglich konstanten Speicherbedarf erfordert (wie traditionelle RNNs). Empirisch zeigen wir, dass Aaren auf 38 Datensätzen, verteilt über vier gängige sequenzielle Problemstellungen – Verstärkendes Lernen, Ereignisvorhersage, Zeitreihen-Klassifikation und Zeitreihen-Vorhersage – eine vergleichbare Leistung wie Transformers erzielen, gleichzeitig jedoch deutlich zeiteffizienter und speichereffizienter sind.