Retrieval-Augmented Generation (RAG)
Retrieval-Augmented Generation (RAG) ist ein KI-Framework, das verwendet wird, um die Qualität der von LLMs generierten Antworten zu verbessern, indem ihre internen Informationsdarstellungen ergänzt werden, indem die Modelle auf externen Wissensquellen aufgebaut werden. RAG ist eine Technik, die aus externen Quellen gewonnene Fakten nutzt, um die Genauigkeit und Zuverlässigkeit generativer KI-Modelle zu verbessern. Es optimiert die Ausgabe großer Sprachmodelle, um vor der Generierung einer Antwort auf maßgebliche Wissensbasen außerhalb der Trainingsdatenquelle zu verweisen.Die Implementierung von RAG in einem LLM-basierten Frage-Antwort-System hat zwei Hauptvorteile: 1. Sie stellt sicher, dass das Modell Zugriff auf die neuesten und zuverlässigsten Fakten hat; 2. Benutzer können auf die Herkunft des Modells zugreifen und so sicherstellen, dass die Angaben auf Genauigkeit und Richtigkeit überprüft und ihnen letztlich vertraut werden kann.
RAG kombiniert eine Informationsabrufkomponente mit einem Textgeneratormodell. RAG kann feinabgestimmt und sein internes Wissen effizient geändert werden, ohne dass das gesamte Modell neu trainiert werden muss.
Vorteile der Retrieval Enhancement Generation
Die RAG-Technologie bringt für die generativen KI-Bemühungen eines Unternehmens mehrere Vorteile mit sich.
- Kostengünstige Umsetzung:Die Chatbot-Entwicklung beginnt normalerweise mit einem Basismodell. Das Basismodell (FM) ist ein über API zugängliches LLM, das anhand einer breiten Palette verallgemeinerter und unbeschrifteter Daten trainiert wurde. Die Umschulung von FM auf organisations- oder domänenspezifische Informationen ist rechnerisch und finanziell aufwändig. RAG ist eine kostengünstigere Möglichkeit, neue Daten in LLM einzuführen, wodurch generative KI-Techniken allgemeiner zugänglich und nutzbar werden.
- Geben Sie die neuesten Informationen an: Auch wenn die ursprüngliche Trainingsdatenquelle von LLM den Benutzeranforderungen entspricht, ist es eine Herausforderung, die Relevanz der Daten aufrechtzuerhalten. RAG ermöglicht es Entwicklern, generative Modelle mit den neuesten Forschungsergebnissen, Statistiken oder Nachrichten zu füttern. Sie können RAG verwenden, um LLM direkt mit Echtzeit-Social-Media-Feeds, Nachrichtenseiten oder anderen häufig aktualisierten Informationsquellen zu verbinden. LLM kann den Benutzern dann die neuesten Informationen zur Verfügung stellen.
- Steigern Sie das Benutzervertrauen: RAG ermöglicht LLM durch Quellenangabe die Darstellung genauer Informationen. Die Ausgabe kann Zitate oder Verweise auf Quellen enthalten. Wenn weitere Erklärungen oder detailliertere Informationen erforderlich sind, können Benutzer das Quelldokument auch selbst finden. Dies kann das Vertrauen in generative KI-Lösungen stärken.
- Mehr Kontrolle für Entwickler: Mit RAG können Entwickler ihre Chat-Anwendungen effizienter testen und verbessern. Sie können LLM-Informationsquellen steuern und ändern, um sie an veränderte Anforderungen oder eine funktionsübergreifende Nutzung anzupassen. Entwickler können den Abruf vertraulicher Informationen außerdem auf verschiedene Autorisierungsebenen beschränken und sicherstellen, dass das LLM entsprechende Antworten generiert. Wenn der LLM außerdem für ein bestimmtes Problem die falsche Informationsquelle angibt, kann er das Problem beheben. Organisationen können generative KI-Techniken für ein breiteres Anwendungsspektrum sicherer implementieren.
Workflow zur Generierung von Retrieval-Verbesserungen
Ohne RAG nimmt das LLM Benutzereingaben entgegen und erstellt eine Antwort basierend auf den Informationen, mit denen es trainiert wurde oder die ihm bereits bekannt sind. RAG führt eine Komponente zur Informationsbeschaffung ein, die Benutzereingaben nutzt, um zunächst Informationen aus neuen Datenquellen zu extrahieren. Benutzeranfragen und zugehörige Informationen werden dem LLM zur Verfügung gestellt. LLM nutzt das neue Wissen und seine Trainingsdaten, um bessere Antworten zu erstellen. In den folgenden Abschnitten wird der Vorgang beschrieben.
- Erstellen externer Daten: Neue Daten außerhalb des ursprünglichen Trainingsdatensatzes werden als LLM bezeichnetExterne Daten. Sie können aus mehreren Datenquellen stammen, beispielsweise einer API, einer Datenbank oder einem Dokumenten-Repository. Daten können in verschiedenen Formaten vorliegen, beispielsweise als Dateien, Datenbankeinträge oder lange Texte. Eine andere KI-Technik namens eingebettetes Sprachmodell wandelt Daten in eine numerische Darstellung um und speichert sie in einer Vektordatenbank. Durch diesen Prozess wird eine Wissensbasis geschaffen, die das generative KI-Modell verstehen kann.
- Relevante Informationen abrufen: Der nächste Schritt besteht darin, eine Relevanzsuche durchzuführen. Benutzerabfragen werden in Vektordarstellungen umgewandelt und mit der Vektordatenbank abgeglichen. Stellen Sie sich beispielsweise einen intelligenten Chatbot vor, der die HR-Fragen eines Unternehmens beantworten kann. Wenn ein Mitarbeiter nach „Wie viel Jahresurlaub habe ich?“ sucht, ruft das System das Dokument mit den Urlaubsrichtlinien sowie die persönlichen Urlaubsaufzeichnungen des Mitarbeiters ab. Diese speziellen Dokumente werden zurückgegeben, da sie für die Eingaben des Mitarbeiters von großer Bedeutung sind. Die Berechnung und Feststellung von Zusammenhängen erfolgt über mathematische Vektorberechnungen und -darstellungen.
- Erweiterte LLM-Tipps: Als Nächstes verbessert das RAG-Modell die Benutzereingabe (oder Eingabeaufforderung), indem es die abgerufenen relevanten Daten im Kontext hinzufügt. In diesem Schritt werden Prompt-Engineering-Techniken verwendet, um effektiv mit dem LLM zu kommunizieren. Erweiterte Hinweise ermöglichen es großen Sprachmodellen, genaue Antworten auf Benutzeranfragen zu generieren.
- Aktualisieren externer Daten: Die nächste Frage könnte lauten: Was ist, wenn die externen Daten veraltet sind? Um aktuelle Informationen für den Abruf bereitzuhalten, aktualisieren Sie das Dokument asynchron und aktualisieren Sie die eingebettete Darstellung des Dokuments. Sie können dies durch die Automatisierung eines Echtzeitprozesses oder als periodischen Stapelprozess tun. Dies ist eine häufige Herausforderung bei der Datenanalyse – das Änderungsmanagement kann mithilfe verschiedener Methoden der Datenwissenschaft angegangen werden.
Das folgende Diagramm zeigt den konzeptionellen Ablauf der Verwendung von RAG mit LLM:

Bildquelle: aws.amazon
Verweise
【1】https://aws.amazon.com/cn/what-is/retrieval-augmented-generation/?nc1=h_ls