HyperAIHyperAI

Command Palette

Search for a command to run...

RWKV : Réinventer les RNN pour l’ère des Transformers

Résumé

Les Transformers ont révolutionné presque toutes les tâches de traitement du langage naturel (NLP), mais ils souffrent d’une complexité mémoire et computationnelle qui croît quadratiquement avec la longueur des séquences. En revanche, les réseaux de neurones récurrents (RNN) présentent une croissance linéaire en mémoire et en complexité computationnelle, mais peinent à atteindre les mêmes performances que les Transformers en raison de limites en matière de parallélisation et de scalabilité. Nous proposons une nouvelle architecture de modèle, appelée Receptance Weighted Key Value (RWKV), qui combine l’entraînement parallélisable efficace des Transformers avec l’inférence efficace des RNN.Notre approche repose sur un mécanisme d’attention linéaire, permettant de formuler le modèle soit comme un Transformer, soit comme un RNN. Cela permet de paralléliser les calculs pendant l’entraînement tout en maintenant une complexité computationnelle et mémoire constante pendant l’inférence. Nous avons entraîné nos modèles jusqu’à 14 milliards de paramètres, ce qui constitue à ce jour le plus grand RNN dense jamais entraîné. Nous constatons que RWKV atteint des performances comparables à celles des Transformers de taille similaire, ce qui suggère que cette architecture pourrait être exploitée dans des travaux futurs pour concevoir des modèles plus efficaces. Ce travail représente une avancée significative vers la résolution des compromis entre efficacité computationnelle et performance des modèles dans les tâches de traitement de séquences.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp