HyperAIHyperAI

Command Palette

Search for a command to run...

Les modèles de langage récursifs : une plongée complète

Les modèles de langage récursifs (RLM) émergent comme une architecture révolutionnaire pour surpasser les benchmarks de contexte long, offrant une approche fondamentalement différente des agents agnostiques traditionnels comme ReAct ou CodeAct. Contrairement aux méthodes classiques qui échouent souvent sur des tâches complexes nécessitant de gérer de vastes volumes de données, les RLM exploitent un environnement de type REPL (Read-Eval-Print Loop) similaire à un notebook Jupyter pour résoudre des problèmes par étapes. Le problème central que résolvent les RLM concerne la gestion de l'attention et de la mémoire. Dans des architectures comme ReAct, l'agent doit mémoriser manuellement les résultats de chaque appel d'outil ou le reproduire token par token, ce qui entraîne des erreurs de transmission et des limites de contexte. Même CodeAct, qui permet à l'agent d'écrire du code, souffre de la nécessité de reconstituer manuellement les résultats dans le contexte final. Les RLM éliminent cette fragilité en permettant au modèle de lire, écrire et manipuler des données via des variables persistantes et des sous-agents récursifs, sans avoir besoin de les reproduire verbalement dans le flux de dialogue. L'architecture RLM fonctionne sur plusieurs principes clés. Premièrement, elle utilise un mécanisme de sélection contextuelle par la volonté du modèle. Au lieu de charger l'intégralité d'un document de plusieurs millions de tokens, l'agent lit des tranches spécifiques via des instructions d'exécution code. Cela permet une attention focalisée, évitant la dilution de l'attention sur des informations non pertinentes. Deuxièmement, les sous-agents ne sont pas simplement des modules supplémentaires, mais des instances récursives capables de traiter des tâches en parallèle ou séquentiellement. Les résultats de ces sous-agents sont retournés sous forme de variables Python, que l'agent principal peut composer directement sans les recharger dans sa fenêtre de contexte visuelle. Cette approche permet des sorties arbitrairement longues, car le résultat final peut être une variable Python complexe ou un fichier, plutôt qu'une séquence de tokens générée automatiquement. L'efficacité est renforcée par l'utilisation de caches KV (Key-Value), car les sous-agents suivent un schéma de message standardisé, réduisant considérablement les coûts d'inférence. De plus, la séparation des rôles entre l'agent racine, qui planifie, et les sous-agents, qui exécutent, permet d'utiliser des modèles différents selon la tâche, optimisant ainsi les performances et les coûts. Les expérimentations montrent que les RLM surpassent les méthodes existantes sur des tâches de décomposition de problèmes, comme la génération et l'analyse de listes massives de données catégorisées. En permettant au modèle de programmer sa propre stratégie d'exploration et de validation via des scripts Python, les RLM transforment l'agent d'un générateur de texte en un véritable système d'automatisation capable de raisonner de manière itérative sur des données massives. Cette innovation marque une étape majeure vers des agents capables de traiter des contextes infiniment étendus de manière efficace et précise.

Liens associés