vor 17 Tagen

RWKV: Die Neuerfindung von RNNs für das Transformer-Zeitalter

Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Stella Biderman, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Jiaju Lin, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Guangyu Song, Xiangru Tang, Bolun Wang, Johan S. Wind, Stanislaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Qinghua Zhou, Jian Zhu, Rui-Jie Zhu

Details der Forschungsarbeit anzeigen

RWKV: Die Neuerfindung von RNNs für das Transformer-Zeitalter

Abstract

Transformers haben fast alle Aufgaben im Bereich des natürlichen Sprachverstehens (Natural Language Processing, NLP) revolutioniert, leiden jedoch unter einer Speicher- und Rechenkomplexität, die quadratisch mit der Sequenzlänge ansteigt. Im Gegensatz dazu zeigen rekurrente neuronale Netze (Recurrent Neural Networks, RNNs) eine lineare Skalierung von Speicherbedarf und Rechenaufwand, erzielen aber aufgrund begrenzter Parallelisierbarkeit und Skalierbarkeit oft nicht denselben Leistungsstand wie Transformers. Wir schlagen eine neuartige Modellarchitektur, die Receptance Weighted Key Value (RWKV)-Architektur, vor, die die effiziente, parallelisierbare Trainingsphase von Transformers mit der effizienten Inferenz von RNNs vereint.Unser Ansatz nutzt eine lineare Aufmerksamkeitsmechanik und ermöglicht es, das Modell entweder als Transformer oder als RNN zu formulieren. Dadurch können während des Trainings Berechnungen parallelisiert werden, während während der Inferenz sowohl der Rechenaufwand als auch der Speicherverbrauch konstant bleiben. Wir skalieren unsere Modelle bis auf bislang unerreichte 14 Milliarden Parameter – weit und breit das größte dichte RNN, das jemals trainiert wurde – und stellen fest, dass RWKV die Leistung ähnlich großer Transformers erreicht. Dies legt nahe, dass zukünftige Arbeiten diese Architektur nutzen können, um effizientere Modelle zu entwickeln. Diese Arbeit stellt einen bedeutenden Schritt dar, um die Kompromisse zwischen Recheneffizienz und Modellleistung bei sequenziellen Verarbeitungsaufgaben zu überwinden.