Mémoire À Long Terme Étendue xLSTM
Le 8 mai 2024, Sepp Hochreiter, le proposant et fondateur de LSTM, a mis en ligne un article pré-imprimé de xLSTM sur arXiv « xLSTM : mémoire à long terme étendue ». L'article soulève une question : jusqu'où pouvons-nous aller dans la modélisation du langage lorsque nous mettons à l'échelle les LSTM à des milliards de paramètres en utilisant la dernière technologie en matière de LLM ? Cet article présente des avancées significatives dans la conception des LSTM, aborde les limites des LSTM traditionnels et introduit de nouvelles fonctionnalités pour améliorer leurs performances dans les grands modèles de langage (LLM).
xLSTM signifie Extended Long Short-Term Memory. xLSTM relance l'idée de mémoire à long terme (LSTM), à savoir le concept de carrousel d'erreurs constant et de porte. Introduit par Sepp Hochreiter et Jürgen Schmidhuber, LSTM est une architecture d'apprentissage profond révolutionnaire dans les années 1990 qui surmonte avec succès le problème du gradient évanescent pour les tâches séquentielles telles que les séries chronologiques ou la modélisation du langage. Depuis lors, les LSTM ont résisté à l’épreuve du temps et ont contribué à de nombreuses réussites en matière d’apprentissage profond, en particulier en formant le premier modèle linguistique à grande échelle (LLM). Cependant, l’émergence de la technologie Transformer avec l’auto-attention parallèle en son cœur a marqué l’arrivée d’une nouvelle ère, surpassant le LSTM en termes d’échelle.
Introduction à la famille xLSTM et à ses composants

Comme le montre la figure ci-dessus, un aperçu de la famille xLSTM et de ses composants est fourni. De gauche à droite :
- Cellule mémoire LSTM originale avec carrousel d'erreurs constant et porte.
- Deux nouvelles unités de stockage ont été introduites :
- sLSTM(Scalaire LSTM) avec porte exponentielle et une nouvelle technique hybride de mémoire.
- mLSTM(matrice LSTM) avec porte exponentielle, formation parallèle, règle de mise à jour de covariance et stockage matriciel des états cellulaires.
3. Intégrez les cellules mémoire mLSTM et sLSTM dans le bloc résiduel pour former le bloc xLSTM.
4. L'architecture xLSTM est construite en empilant des blocs xLSTM avec des résidus.
L'importance de xLSTM pour le modèle de langage large (LLM)
L'introduction de l'architecture xLSTM a un impact significatif sur le développement et les performances des grands modèles de langage (LLM). En abordant les limites du LSTM traditionnel et en incorporant de nouveaux composants tels que la porte exponentielle, la mémoire matricielle et l'architecture parallélisable, xLSTM ouvre de nouvelles possibilités pour le LLM.
L’un des principaux avantages de xLSTM pour les grands modèles de langage (LLM) est sa capacité à gérer efficacement de longues séquences et des tâches de modélisation de langage à grande échelle. La complexité temporelle linéaire et la complexité de mémoire constante de xLSTM le rendent bien adapté au traitement de données textuelles volumineuses sans entraîner l'augmentation quadratique du coût de calcul et de l'utilisation de la mémoire associée aux modèles basés sur Transformer. Cet avantage en termes d’efficacité est particulièrement précieux pour les LLM, qui doivent généralement traiter de grandes quantités de données textuelles pendant la formation et l’inférence.
De plus, xLSTM montre des performances de modélisation linguistique améliorées avec des scores de perplexité inférieurs par rapport à Transformer LLM et RWKV, indiquant son potentiel pour améliorer la qualité et la cohérence du texte généré dans LLM. La mémoire matricielle et le mécanisme de porte exponentielle de xLSTM lui permettent de capturer et de conserver des informations plus complètes et détaillées à partir des données de formation, obtenant ainsi une meilleure compréhension du langage et de meilleures capacités de génération.
La loi d'échelle proposée dans l'article xLSTM montre que l'avantage de performance de xLSTM existe toujours même lorsqu'il est formé sur des ensembles de données plus volumineux (tels que le corpus SlimPajama avec 300 B de jetons). Cette évolutivité est cruciale pour les LLM, car ils s'appuient généralement sur de grandes quantités de données de formation pour atteindre des performances de pointe. La capacité de xLSTM à maintenir son efficacité et sa puissance de modélisation sur une plus grande plage en fait une architecture prometteuse pour les futurs LLM.
De plus, la flexibilité de l'architecture xLSTM permet différents ratios de modules mlsTM et sLSTM, offrant des possibilités de personnalisation et d'adaptation à des tâches de modélisation de langage spécifiques. Cette adaptabilité est précieuse pour les LLM car ils sont souvent appliqués à une variété de tâches de traitement du langage naturel avec des exigences et des caractéristiques différentes.
L’architecture xLSTM ouvre également de nouvelles perspectives de recherche et d’innovation en LLM. L'introduction de la porte exponentielle et de la mémoire matricielle dans xLSTM remet en question la domination des modèles basés sur Transformer et encourage l'exploration d'architectures alternatives susceptibles d'offrir une efficacité et des performances supérieures. Le succès de xLSTM pourrait inspirer de nouvelles recherches sur de nouvelles structures de mémoire, des mécanismes de déclenchement et des techniques de parallélisation pour les LLM.
En résumé, l’architecture xLSTM apporte des améliorations significatives au LLM. Son efficacité, son évolutivité et ses capacités améliorées de modélisation du langage en font une alternative prometteuse aux modèles basés sur Transformer. Alors que le domaine des LLM continue de progresser, les connaissances et les innovations introduites par les xLSTM sont susceptibles de façonner les développements futurs et de repousser les limites de ce qui est possible dans le traitement du langage naturel. L’article xLSTM a jeté les bases d’une nouvelle ère de LLM capables de traiter efficacement de grandes quantités de données textuelles tout en offrant une compréhension et une génération de langage de haute qualité.
Références
【1】xLSTM : amélioration de la mémoire à long terme pour les grands modèles linguistiques