Command Palette
Search for a command to run...
Panini : Apprentissage continu dans l’espace des tokens grâce à une mémoire structurée
Panini : Apprentissage continu dans l’espace des tokens grâce à une mémoire structurée
Shreyas Rajesh Pavan Holur Mehmet Yigit Turali Chenda Duan Vwani Roychowdhury
Résumé
Les modèles linguistiques sont de plus en plus utilisés pour raisonner sur du contenu sur lequel ils n’ont pas été entraînés, comme des documents nouveaux, des connaissances en évolution ou des données spécifiques à l’utilisateur. Une approche courante consiste en la génération augmentée par récupération (RAG), qui stocke les documents textuellement de manière externe (sous forme de morceaux) et n’en récupère qu’un sous-ensemble pertinent au moment de l’inférence, afin que le modèle linguistique (LLM) puisse raisonner dessus. Toutefois, cette approche entraîne une utilisation inefficace des ressources de calcul au moment de l’exécution (le LLM raisonne plusieurs fois sur les mêmes documents), et la récupération de morceaux peut introduire un contexte non pertinent, augmentant ainsi la génération de réponses non justifiées. Nous proposons un cadre d’apprentissage continu non paramétrique inspiré de la cognition humaine, dans lequel le modèle de base reste fixe, et l’apprentissage se produit en intégrant chaque nouvelle expérience dans un état de mémoire sémantique externe qui s’accumule et se consolide continuellement. Nous présentons Panini, qui met en œuvre cette idée en représentant les documents sous la forme d’espaces de travail sémantiques génératifs (GSW) — un réseau d’entités et d’événements, composé de paires questions-réponses (QA), suffisamment riche pour permettre au LLM de reconstruire les situations vécues et d’extraire des connaissances latentes grâce à des chaînes d’inférence fondées sur le raisonnement au sein du réseau. Devant une requête, Panini n’explore que le GSW mis à jour continuellement (et non les documents bruts ou leurs morceaux), et récupère les chaînes d’inférence les plus probables. Sur six benchmarks de questions-réponses, Panini obtient les meilleurs résultats moyens, soit 5 à 7 % de mieux que les autres modèles concurrents, tout en utilisant entre 2 et 30 fois moins de jetons de contexte-réponse, en supportant des pipelines entièrement open-source, et en réduisant significativement les réponses non justifiées sur des requêtes prédéfinies sans réponse. Ces résultats démontrent que la structuration efficace et précise des expériences au moment de l’écriture — comme cela est réalisé par le cadre GSW — conduit à des gains en efficacité et en fiabilité au moment de la lecture. Le code est disponible à l’adresse suivante : https://github.com/roychowdhuryresearch/gsw-memory.