Self-RAG: Lernen, durch Selbstreflexion zu retrieven, zu generieren und zu kritisieren

Trotz ihrer bemerkenswerten Fähigkeiten erzeugen große Sprachmodelle (LLMs) häufig Antworten mit faktischen Inkorrektheiten, da sie ausschließlich auf die parametrische Wissensrepräsentation angewiesen sind, die sie enthalten. Retrieval-Augmented Generation (RAG), ein ad-hoc-Ansatz, der LMs durch die Abrufung relevanter Kenntnisse erweitert, reduziert solche Probleme. Allerdings verringert das ungezielte Abrufen und die Integration einer festen Anzahl von Textpassagen – unabhängig davon, ob ein Abruf erforderlich ist oder die Passagen relevant sind – die Flexibilität des LMs oder kann zu unhilfreichen Antwortgenerierungen führen. Wir stellen einen neuen Ansatz namens Self-Reflective Retrieval-Augmented Generation (Self-RAG) vor, der die Qualität und Faktengenauigkeit eines LMs durch gezielten Abruf und Selbstreflexion verbessert. Unser Framework trainiert ein einzelnes, beliebig gewähltes LM, das auf Anforderung adaptiv Textpassagen abruft und sowohl die abgerufenen Passagen als auch seine eigene Generierung mittels spezieller Tokens, sogenannter Reflexionstokens, reflektiert. Die Generierung von Reflexionstokens ermöglicht eine kontrollierbare Steuerung des LMs während der Inferenzphase und erlaubt es, sein Verhalten an unterschiedliche Aufgabenanforderungen anzupassen. Experimente zeigen, dass Self-RAG (7B und 13B Parameter) state-of-the-art LLMs und retrieval-augmentierte Modelle auf einer vielfältigen Aufgabensammlung erheblich übertrifft. Insbesondere erreicht Self-RAG bessere Ergebnisse als ChatGPT und retrieval-augmentiertes Llama2-chat bei Open-domain QA-, Schlussfolgerungs- und Faktüberprüfungsaufgaben und zeigt signifikante Verbesserungen hinsichtlich Faktengenauigkeit und Zitiergenauigkeit bei langen Textgenerierungen im Vergleich zu diesen Modellen.