RAG n’est pas mort : l’ère de l’ingénierie de contexte et des couches sémantiques pour l’IA autonome
RAG n’est pas mort, mais il a profondément évolué. À l’ère de l’intelligence artificielle agente, la récupération de contexte n’est plus une simple étape ponctuelle, mais un composant dynamique d’un processus de raisonnement continu, désormais appelé context engineering. Initialement popularisé après le lancement de ChatGPT en 2022, RAG (Retrieval-Augmented Generation) répondait à une limitation fondamentale : les fenêtres contextuelles des modèles linguistiques étaient trop restreintes pour intégrer l’ensemble des données d’une entreprise. En récupérant des extraits pertinents via des bases vectorielles, RAG permettait d’enrichir les prompts envoyés aux LLM. Cependant, cette approche naïve s’est rapidement révélée insuffisante face aux défis de la réalité entreprise : surcharge de contexte, incohérence, biais ou « poisoning » du contexte, où des informations erronées ou contradictoires nuisaient à la qualité des réponses. L’évolution vers des systèmes agents autonomes a mis en lumière les limites de RAG classique. Les agents doivent non seulement récupérer de l’information, mais aussi la réécrire, la compresser, l’isoler ou la sélectionner selon le contexte de chaque étape. Ce nouveau paradigme, baptisé context engineering, repose sur une gestion fine du contexte à chaque interaction. Des outils comme LangChain, LlamaIndex ou les frameworks MCP (Model Context Protocol) d’Anthropic ou OpenAI permettent désormais d’intégrer la récupération comme une action parmi d’autres — recherche web, accès à des bases relationnelles, requêtes sur des graphes de connaissances, ou consultation de mémoires — dans un flux de travail complexe. Les graphes de connaissances jouent un rôle central dans cette évolution. Contrairement aux simples extraits textuels, ils structurent les données en entités et relations, offrant une sémantique explicite et une traçabilité des sources. GraphRAG, popularisé par Microsoft en 2024, illustre cette tendance : en combinant les capacités de raisonnement des LLM avec la richesse sémantique des graphes, il améliore la précision, la reproductibilité et l’explicabilité des réponses. Cette renaissance des graphes de connaissances s’accompagne d’un fort mouvement de consolidation : acquisitions de MarkLogic, RDFox, data.world, et la fusion d’Ontotext et Semantic Web Company en Graphwise, témoignent d’un intérêt stratégique croissant pour des infrastructures sémantiques robustes. Le semantic layer — une couche d’abstraction qui rend les données compréhensibles à la fois par les humains et les machines — devient le pilier de cette nouvelle ère. Il ne s’agit plus seulement de structurer les données relationnelles, mais d’harmoniser l’ensemble du paysage de données : textes non structurés, documents, images, vidéos, méta-données, outils, mémoires d’agents. Des initiatives comme l’OSI de Snowflake ou les standards du Web sémantique (RDF, OWL) visent à standardiser cette couche, en s’inspirant des pratiques des bibliothécaires et des scientifiques de l’information. L’évaluation des performances évolue aussi : au-delà de la simple exactitude des réponses, on mesure désormais la pertinence du contexte, sa fondation (groundedness), sa provenance, sa couverture et sa fraîcheur. Des outils comme Ragas, LangSmith ou TruLens offrent des cadres pour évaluer ces dimensions. Par ailleurs, des gardes-fous policy-as-code (comme Open Policy Agent) s’imposent pour garantir que la récupération respecte les règles de gouvernance, la confidentialité et les réglementations (ex. RGPD, HIPAA). En somme, RAG n’est pas mort, mais il s’est transformé. Il est devenu une composante d’un écosystème plus vaste, où la gestion sémantique, la gouvernance des données et l’ingénierie contextuelle sont essentielles. L’avenir de l’IA entreprise ne repose plus sur la simple récupération de documents, mais sur la capacité à raisonner de manière explicite, fiable et responsable, à travers un context engineering intelligent, piloté par des graphes de connaissances et des couches sémantiques. Ce n’est plus seulement une question de performance, mais de confiance, de traçabilité et d’explicabilité.
