RWKV: Die Neuerfindung von RNNs für das Transformer-Zeitalter

Transformers haben fast alle Aufgaben im Bereich des natürlichen Sprachverstehens (Natural Language Processing, NLP) revolutioniert, leiden jedoch unter einer Speicher- und Rechenkomplexität, die quadratisch mit der Sequenzlänge ansteigt. Im Gegensatz dazu zeigen rekurrente neuronale Netze (Recurrent Neural Networks, RNNs) eine lineare Skalierung von Speicherbedarf und Rechenaufwand, erzielen aber aufgrund begrenzter Parallelisierbarkeit und Skalierbarkeit oft nicht denselben Leistungsstand wie Transformers. Wir schlagen eine neuartige Modellarchitektur, die Receptance Weighted Key Value (RWKV)-Architektur, vor, die die effiziente, parallelisierbare Trainingsphase von Transformers mit der effizienten Inferenz von RNNs vereint.Unser Ansatz nutzt eine lineare Aufmerksamkeitsmechanik und ermöglicht es, das Modell entweder als Transformer oder als RNN zu formulieren. Dadurch können während des Trainings Berechnungen parallelisiert werden, während während der Inferenz sowohl der Rechenaufwand als auch der Speicherverbrauch konstant bleiben. Wir skalieren unsere Modelle bis auf bislang unerreichte 14 Milliarden Parameter – weit und breit das größte dichte RNN, das jemals trainiert wurde – und stellen fest, dass RWKV die Leistung ähnlich großer Transformers erreicht. Dies legt nahe, dass zukünftige Arbeiten diese Architektur nutzen können, um effizientere Modelle zu entwickeln. Diese Arbeit stellt einen bedeutenden Schritt dar, um die Kompromisse zwischen Recheneffizienz und Modellleistung bei sequenziellen Verarbeitungsaufgaben zu überwinden.