HyperAI

Génération Augmentée Par Récupération (RAG)

La génération augmentée par récupération (RAG) est un cadre d'IA utilisé pour améliorer la qualité des réponses générées par les LLM en complétant leurs représentations d'informations internes en construisant les modèles sur des sources de connaissances externes. RAG est une technique qui utilise des faits obtenus à partir de sources externes pour améliorer la précision et la fiabilité des modèles d’IA génératifs. Il optimise la sortie de grands modèles linguistiques pour référencer des bases de connaissances faisant autorité en dehors de la source de données de formation avant de générer une réponse.La mise en œuvre de RAG dans un système de questions-réponses basé sur LLM présente deux avantages principaux : 1. Elle garantit que le modèle a accès aux faits les plus récents et fiables ; 2. Les utilisateurs peuvent accéder à la provenance du modèle, garantissant ainsi que l'exactitude et la véracité de ses affirmations peuvent être vérifiées et finalement fiables.

RAG combine un composant de recherche d'informations avec un modèle de générateur de texte. RAG peut être affiné et ses connaissances internes peuvent être modifiées efficacement sans avoir à recycler l'ensemble du modèle.

Avantages de la génération d'amélioration de la récupération

La technologie RAG apporte plusieurs avantages aux efforts d’IA générative d’une organisation.

  • Mise en œuvre rentable :Le développement d’un chatbot commence généralement par un modèle de base. Le modèle de base (FM) est un LLM accessible par API formé sur une large gamme de données généralisées et non étiquetées. La reconversion de la FM pour des informations spécifiques à une organisation ou à un domaine est coûteuse en termes de calcul et de financement. RAG est un moyen plus rentable d’introduire de nouvelles données dans le LLM, rendant les techniques d’IA générative plus largement accessibles et utilisables.
  • Fournir les dernières informations:Même si la source de données de formation d'origine de LLM est adaptée aux besoins des utilisateurs, maintenir la pertinence des données est un défi. RAG permet aux développeurs d'alimenter les modèles génératifs avec les dernières recherches, statistiques ou actualités. Ils peuvent utiliser RAG pour connecter LLM directement aux flux de médias sociaux en temps réel, aux sites d'actualités ou à d'autres sources d'informations fréquemment mises à jour. LLM peut alors fournir aux utilisateurs les informations les plus récentes.
  • Renforcer la confiance des utilisateurs: RAG permet à LLM de présenter des informations précises grâce à l'attribution des sources. Le résultat peut inclure des citations ou des références à des sources. Si des explications supplémentaires ou des informations plus détaillées sont nécessaires, les utilisateurs peuvent également trouver eux-mêmes le document source. Cela peut accroître la confiance dans les solutions d’IA génératives.
  • Plus de contrôle pour les développeurs:Avec RAG, les développeurs peuvent tester et améliorer leurs applications de chat plus efficacement. Ils peuvent contrôler et modifier les sources d’information LLM pour s’adapter aux besoins changeants ou à l’utilisation interfonctionnelle. Les développeurs peuvent également restreindre la récupération d’informations sensibles à différents niveaux d’autorisation et garantir que le LLM génère des réponses appropriées. De plus, si le LLM cite la mauvaise source d’information pour un problème particulier, il peut le dépanner et le résoudre. Les organisations peuvent mettre en œuvre en toute confiance des techniques d’IA générative pour une plus large gamme d’applications.

Flux de travail de génération d'amélioration de récupération

Sans RAG, le LLM prend les entrées de l'utilisateur et crée une réponse basée sur les informations sur lesquelles il a été formé ou qu'il connaît déjà. RAG introduit un composant de recherche d'informations qui exploite les entrées de l'utilisateur pour extraire d'abord des informations à partir de nouvelles sources de données. Les requêtes des utilisateurs et les informations associées sont fournies au LLM. Le LLM utilise les nouvelles connaissances et ses données de formation pour créer de meilleures réponses. Les sections suivantes décrivent le processus.

  • Création de données externes:Les nouvelles données en dehors de l'ensemble de données d'entraînement d'origine sont appelées LLMDonnées externes. Il peut provenir de plusieurs sources de données, telles qu'une API, une base de données ou un référentiel de documents. Les données peuvent exister sous différents formats, tels que des fichiers, des enregistrements de base de données ou de longs textes. Une autre technique d’IA appelée modèle de langage intégré convertit les données en représentation numérique et les stocke dans une base de données vectorielle. Ce processus crée une base de connaissances que le modèle d’IA générative peut comprendre.
  • Récupérer des informations pertinentes:L’étape suivante consiste à effectuer une recherche de pertinence. Les requêtes des utilisateurs sont converties en représentations vectorielles et comparées à la base de données vectorielle. Prenons par exemple un chatbot intelligent capable de répondre aux questions RH d’une organisation. Si un employé recherche « Combien de congés annuels ai-je ? », le système récupérera le document de politique de congés annuels ainsi que les antécédents personnels de congés de l’employé. Ces documents spécifiques seront retournés car ils sont très pertinents par rapport à ce que l'employé a saisi. Les corrélations sont calculées et établies à l’aide de calculs et de représentations vectorielles mathématiques.
  • Conseils améliorés pour le LLM:Ensuite, le modèle RAG améliore la saisie de l’utilisateur (ou l’invite) en ajoutant les données pertinentes récupérées dans le contexte. Cette étape utilise des techniques d’ingénierie rapides pour communiquer efficacement avec le LLM. Les astuces améliorées permettent aux grands modèles de langage de générer des réponses précises aux requêtes des utilisateurs.
  • Mise à jour des données externes:La question suivante pourrait être : que se passe-t-il si les données externes sont obsolètes ? Pour conserver les informations actuelles en vue de leur récupération, mettez à jour le document de manière asynchrone et mettez à jour la représentation intégrée du document. Vous pouvez le faire en automatisant un processus en temps réel ou sous forme de processus par lots périodique. Il s’agit d’un défi courant dans l’analyse des données : la gestion du changement peut être abordée à l’aide de différentes méthodes de science des données.

Le diagramme suivant montre le flux conceptuel de l’utilisation de RAG avec LLM :

Source de l'image : aws.amazon

Références

【1】https://aws.amazon.com/cn/what-is/retrieval-augmented-generation/?nc1=h_ls