RWKV : Réinventer les RNN pour l’ère des Transformers

Les Transformers ont révolutionné presque toutes les tâches de traitement du langage naturel (NLP), mais ils souffrent d’une complexité mémoire et computationnelle qui croît quadratiquement avec la longueur des séquences. En revanche, les réseaux de neurones récurrents (RNN) présentent une croissance linéaire en mémoire et en complexité computationnelle, mais peinent à atteindre les mêmes performances que les Transformers en raison de limites en matière de parallélisation et de scalabilité. Nous proposons une nouvelle architecture de modèle, appelée Receptance Weighted Key Value (RWKV), qui combine l’entraînement parallélisable efficace des Transformers avec l’inférence efficace des RNN.Notre approche repose sur un mécanisme d’attention linéaire, permettant de formuler le modèle soit comme un Transformer, soit comme un RNN. Cela permet de paralléliser les calculs pendant l’entraînement tout en maintenant une complexité computationnelle et mémoire constante pendant l’inférence. Nous avons entraîné nos modèles jusqu’à 14 milliards de paramètres, ce qui constitue à ce jour le plus grand RNN dense jamais entraîné. Nous constatons que RWKV atteint des performances comparables à celles des Transformers de taille similaire, ce qui suggère que cette architecture pourrait être exploitée dans des travaux futurs pour concevoir des modèles plus efficaces. Ce travail représente une avancée significative vers la résolution des compromis entre efficacité computationnelle et performance des modèles dans les tâches de traitement de séquences.