il y a 17 jours

RWKV : Réinventer les RNN pour l’ère des Transformers

Bo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Stella Biderman, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Jiaju Lin, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Guangyu Song, Xiangru Tang, Bolun Wang, Johan S. Wind, Stanislaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Qinghua Zhou, Jian Zhu, Rui-Jie Zhu

Voir les détails de l'article

RWKV : Réinventer les RNN pour l’ère des Transformers

Résumé

Les Transformers ont révolutionné presque toutes les tâches de traitement du langage naturel (NLP), mais ils souffrent d’une complexité mémoire et computationnelle qui croît quadratiquement avec la longueur des séquences. En revanche, les réseaux de neurones récurrents (RNN) présentent une croissance linéaire en mémoire et en complexité computationnelle, mais peinent à atteindre les mêmes performances que les Transformers en raison de limites en matière de parallélisation et de scalabilité. Nous proposons une nouvelle architecture de modèle, appelée Receptance Weighted Key Value (RWKV), qui combine l’entraînement parallélisable efficace des Transformers avec l’inférence efficace des RNN.Notre approche repose sur un mécanisme d’attention linéaire, permettant de formuler le modèle soit comme un Transformer, soit comme un RNN. Cela permet de paralléliser les calculs pendant l’entraînement tout en maintenant une complexité computationnelle et mémoire constante pendant l’inférence. Nous avons entraîné nos modèles jusqu’à 14 milliards de paramètres, ce qui constitue à ce jour le plus grand RNN dense jamais entraîné. Nous constatons que RWKV atteint des performances comparables à celles des Transformers de taille similaire, ce qui suggère que cette architecture pourrait être exploitée dans des travaux futurs pour concevoir des modèles plus efficaces. Ce travail représente une avancée significative vers la résolution des compromis entre efficacité computationnelle et performance des modèles dans les tâches de traitement de séquences.