Dépasser la fenêtre de contexte : comment les modèles linguistiques récursifs révolutionnent l’analyse de grandes masses de données
Dans un contexte où la qualité des sorties des modèles de langage à grande échelle (LLM) dépend directement de la quantité et de la pertinence des informations fournies, les limites du « window contexte » posent un défi croissant. Bien que les modèles de pointe supportent désormais des contextes allant jusqu’à des millions de tokens, la performance réelle diminue significativement avec l’augmentation de la longueur du contexte — un phénomène connu sous le nom de context rot. Une étude récente, RULER: What’s the Real Context Size of Your Long-Context Language Models?, montre que la longueur effective de contexte, au-delà de laquelle la performance reste stable, est souvent réduite à 50 % seulement de la capacité annoncée. Pour surmonter ce problème, Zhang et al. ont introduit une approche prometteuse : les Modèles de Langage Récursifs (Recursive Language Models, RLM). Contrairement aux méthodes classiques comme la résumé du contexte, qui entraînent une perte d’information, les RLM traitent le contexte comme un environnement Python accessible via un REPL (Read-Eval-Print Loop). Le modèle peut alors écrire du code pour explorer, découper et appeler récursivement des sous-modèles sur des fragments du texte, sans jamais charger l’intégralité du contexte en une seule fois. Cette méthode a été mise en œuvre dans DSPy, une bibliothèque d’inférence pour les LLM, permettant d’expérimenter les RLM sans implémentation manuelle. Dans un exemple concret, un corpus de près de 1,5 Mo de textes publiés sur Towards Data Science a été analysé pour identifier les tendances clés en intelligence artificielle en 2025. Malgré une longueur de contexte de 386 768 tokens — dépassant largement la fenêtre de 200 000 tokens de Claude Sonnet 4.5 — le système a réussi à produire une synthèse cohérente en 13 étapes itératives. Le modèle a d’abord exploré la structure du document, identifié les articles via des séparateurs, puis extrait les métadonnées (titre, date, catégorie). Ensuite, il a filtré les contenus publiés en 2025, analysé les 13 articles pertinents par sous-appels récursifs, et enfin synthétisé les tendances principales : systèmes multi-agents, IA autonome, protocoles standardisés (MCP, ACP), évaluation en production, déplacement vers le programming over prompting, et déploiement local. L’analyse a été améliorée en ajoutant une instruction explicite pour filtrer par année, démontrant l’importance d’une formulation précise des questions. Les RLM fonctionnent grâce à une interaction structurée : le modèle réfléchit, écrit du code, exécute des appels à des sous-modèles (via llm_query ou llm_query_batched), observe les résultats, puis itère. Cette boucle itérative, combinée à une interface de programmation naturelle pour les LLM, permet une navigation fiable dans des contextes massifs. Le système utilise des outils comme SUBMIT() pour finaliser la réponse, et des fonctions standard (re, json, etc.) pour manipuler les données. En évaluation, les RLM surpassent largement les approches traditionnelles sur des tâches à horizon long, avec des performances stables même pour des contextes bien au-delà de la capacité native du modèle. L’approche est particulièrement efficace car elle s’appuie sur la capacité des LLM à comprendre et générer du code — une compétence qu’ils ont été fortement entraînée à maîtriser. En conclusion, les RLM représentent une avancée majeure dans l’exploitation des LLM pour des tâches complexes à grande échelle. Elles transforment la gestion du contexte d’un problème de limitation technique en un processus de programmation logique et itératif. Toutefois, leur succès dépend fortement de la qualité des instructions fournies. Comme le souligne l’auteur, la curiosité et la précision des questions restent les clés d’un bon résultat. Cette méthode, combinée à des outils comme DSPy, ouvre la voie à une nouvelle génération d’applications agiles, scalables et robustes dans le domaine de l’IA.
