Command Palette
Search for a command to run...
REFRAG: Eine Neubewertung der RAG-basierten Decodierung
Xiaoqiang Lin Aritra Ghosh Bryan Kian Hsiang Low Anshumali Shrivastava Vijai Mohan

Abstract
Große Sprachmodelle (Large Language Models, LLMs) haben bemerkenswerte Fähigkeiten bei der Nutzung umfangreicher externer Wissensquellen zur Verbesserung der Antworten in mehrschrittigen und agentenbasierten Anwendungen, beispielsweise bei der retrieval-augmentierten Generierung (Retrieval-Augmented Generation, RAG). Die Verarbeitung langer Kontexte führt jedoch zu erheblicher Systemlatenz und erfordert erheblichen Speicherplatz für den Key-Value-Cache, was die Durchsatzleistung reduziert und ein fundamentales Kompromiss zwischen Wissensreichtum und Systemeffizienz nach sich zieht. Während die Minimierung der Latenz bei langen Kontexten ein zentrales Ziel für LLMs ist, argumentieren wir, dass RAG spezielle Berücksichtigung erfordern. In RAG besteht ein großer Teil des LLM-Kontexts aus zusammengefügten Textpassagen aus der Retrieval-Phase, wobei nur ein kleiner Teil direkt relevant für die Abfrage ist. Diese Passagen weisen oft geringe semantische Ähnlichkeit auf, da sie aufgrund von Diversifizierung oder Deduplizierung während des Re-Rankings unterschiedlich sind, was zu blockdiagonalen Aufmerksamkeitsmustern führt, die sich von denjenigen in herkömmlichen LLM-Generierungsaufgaben unterscheiden. Aufgrund dieser Beobachtung vermuten wir, dass die meisten Berechnungen im RAG-Kontext während der Dekodierung unnötig sind und mit nur geringfügigen Auswirkungen auf die Leistung eliminiert werden können. Hierfür stellen wir REFRAG vor, einen effizienten Dekodierungsrahmen, der durch Kompression, Sensierung und Expansion die Latenz in RAG-Anwendungen verbessert. Durch Ausnutzung der Sparsitätsstruktur erreichen wir eine Beschleunigung der Zeit bis zum ersten Token um 30,85 % (Verbesserung um 3,75 gegenüber vorhergehenden Arbeiten) ohne Verlust an Perplexität. Zudem ermöglicht unser Optimierungsframework für lange Kontexte eine Verlängerung der Kontextlänge von LLMs um das 16-fache. Wir führen eine gründliche Validierung von REFRAG an verschiedenen Aufgaben mit langen Kontexten durch, darunter RAG, mehrschrittige Gespräche und Zusammenfassung langer Dokumente, über eine breite Palette von Datensätzen. Experimentelle Ergebnisse bestätigen, dass REFRAG eine erhebliche Beschleunigung ermöglicht, ohne die Genauigkeit im Vergleich zu LLaMA-Modellen und anderen state-of-the-art-Baselines bei unterschiedlichen Kontextgrößen zu beeinträchtigen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.