HyperAIHyperAI

Command Palette

Search for a command to run...

Panini : Apprentissage continu dans l’espace des tokens grâce à une mémoire structurée

Shreyas Rajesh Pavan Holur Mehmet Yigit Turali Chenda Duan Vwani Roychowdhury

Résumé

Les modèles linguistiques sont de plus en plus utilisés pour raisonner sur du contenu sur lequel ils n’ont pas été entraînés, comme des documents nouveaux, des connaissances en évolution ou des données spécifiques à l’utilisateur. Une approche courante consiste en la génération augmentée par récupération (RAG), qui stocke les documents textuellement de manière externe (sous forme de morceaux) et n’en récupère qu’un sous-ensemble pertinent au moment de l’inférence, afin que le modèle linguistique (LLM) puisse raisonner dessus. Toutefois, cette approche entraîne une utilisation inefficace des ressources de calcul au moment de l’exécution (le LLM raisonne plusieurs fois sur les mêmes documents), et la récupération de morceaux peut introduire un contexte non pertinent, augmentant ainsi la génération de réponses non justifiées. Nous proposons un cadre d’apprentissage continu non paramétrique inspiré de la cognition humaine, dans lequel le modèle de base reste fixe, et l’apprentissage se produit en intégrant chaque nouvelle expérience dans un état de mémoire sémantique externe qui s’accumule et se consolide continuellement. Nous présentons Panini, qui met en œuvre cette idée en représentant les documents sous la forme d’espaces de travail sémantiques génératifs (GSW) — un réseau d’entités et d’événements, composé de paires questions-réponses (QA), suffisamment riche pour permettre au LLM de reconstruire les situations vécues et d’extraire des connaissances latentes grâce à des chaînes d’inférence fondées sur le raisonnement au sein du réseau. Devant une requête, Panini n’explore que le GSW mis à jour continuellement (et non les documents bruts ou leurs morceaux), et récupère les chaînes d’inférence les plus probables. Sur six benchmarks de questions-réponses, Panini obtient les meilleurs résultats moyens, soit 5 à 7 % de mieux que les autres modèles concurrents, tout en utilisant entre 2 et 30 fois moins de jetons de contexte-réponse, en supportant des pipelines entièrement open-source, et en réduisant significativement les réponses non justifiées sur des requêtes prédéfinies sans réponse. Ces résultats démontrent que la structuration efficace et précise des expériences au moment de l’écriture — comme cela est réalisé par le cadre GSW — conduit à des gains en efficacité et en fiabilité au moment de la lecture. Le code est disponible à l’adresse suivante : https://github.com/roychowdhuryresearch/gsw-memory.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp