LLM à mémoire réinventée : l’apprentissage en temps de test permet des modèles qui apprennent sur le vif
Les modèles de langage à très grande échelle (LLM) sont régulièrement présentés avec des fenêtres contextuelles de plus en plus grandes, promettant de traiter des conversations entières, des livres ou même plusieurs bases de code simultanément. Pourtant, malgré ces capacités apparentes, ils persistent à commettre les mêmes erreurs, nécessitant souvent que l’utilisateur copie-colle du contexte ancien pour qu’ils « comprennent ». Contrairement à un collègue humain qui apprend des patterns et adapte son comportement, les LLM semblent incapables de tirer des leçons durant l’interaction. Cette limitation révèle une différence fondamentale entre la mémoire humaine et celle des modèles actuels. Les humains améliorent leur compréhension avec l’expérience, même sans se souvenir de chaque détail exact. Par exemple, l’intuition acquise lors d’un premier cours de machine learning peut encore aider à comprendre un article complexe des années plus tard, malgré l’oubli de certains mots. En revanche, les modèles basés sur l’attention complète (full attention) du transformer sont conçus pour un rappel presque parfait de chaque token, ce qui entraîne un coût computationnel qui croît linéairement avec la longueur du contexte. Traiter le 10 millionième token prend un million de fois plus de temps que le 10e, ce qui est inenvisageable à grande échelle. Pour contourner ce problème, des architectures comme Mamba ou Gated DeltaNet utilisent des approximations à coût constant par token, mais elles perdent progressivement de l’information pertinente, ce qui se traduit par une perte (loss) croissante à mesure que le contexte s’allonge. C’est là qu’intervient la méthode TTT-E2E (Test-Time Training End-to-End), une avancée clé de la recherche récente. Elle repose sur l’idée de compresser le contexte en cours d’inférence en mettant à jour les poids du modèle via une prédiction du prochain token, similaire à un apprentissage en temps réel. Le point clé est l’approche en deux boucles : une boucle interne optimise la perte de prédiction du prochain token, tandis qu’une boucle externe, via une méta-apprentissage, prépare le modèle à ce type d’ajustement. Contrairement aux approches antérieures, TTT-E2E est end-to-end, ce qui lui permet de s’adapter efficacement sans perte de performance. Les résultats montrent que TTT-E2E surpasse tous les autres modèles à la fois en perte (moins de 128K tokens) et en latence, en restant constante indépendamment de la longueur du contexte. Sur un H100 NVIDIA, elle est 2,7 fois plus rapide qu’un transformer classique à 128K tokens, et 35 fois plus rapide à 2M tokens. En comparaison, l’approche RAG (Retrieval-Augmented Generation) est comme un carnet de notes : utile pour retenir des détails précis, mais ne remplace pas la mémoire interne. TTT-E2E, quant à elle, s’inscrit comme une véritable amélioration de la mémoire du modèle, en lui permettant d’acquérir de l’intuition et de l’adaptabilité, comme un cerveau humain. Cependant, TTT-E2E présente une limitation : la phase de méta-apprentissage nécessite des gradients de gradients, ce qui ralentit l’entraînement initial de 3,4 fois par rapport à une pré-entraînement standard, en raison de l’absence de prise en charge dans FlashAttention. Cette barrière peut être levée grâce à des noyaux d’attention personnalisés ou à une initialisation à partir d’un modèle standard. En résumé, TTT-E2E marque une avancée majeure vers une mémoire de longue durée réellement efficace, offrant un équilibre inédit entre performance, latence et capacité d’adaptation. Les chercheurs estiment que ce progrès pourrait mener à une solution fondamentale pour les contextes longs d’ici 2026. Le papier et le code sont disponibles publiquement, invitant la communauté à participer à l’innovation.
