Neues System verbessert RAG
Großkontextfenster beheben RAG-Aggregationsfehler nicht: Entwickler präsentieren Routing-Architektur für deterministische Datenanalyse Entwickler einer neuen Datenanalyse-Pipeline haben ein fundamentales Problem bei Retrieval-Augmented-Generation-Systemen identifiziert: RAG-Architekturen scheitern zuverlässig an der numerischen Aggregation strukturierter Dateien. Selbst massive Kontextfenster von bis zu 520.000 Tokens führen nicht zu korrekten Summen, sondern zu hochgradig plausibel wirkenden, aber rechnerisch falschen Ergebnissen. Dieser Effekt, benannt als Error Observability Collapse, verschärft sich mit zunehmender Kontextgröße, da die Modellantworten detaillierter und überprüfbarer werden, ohne an faktischer Genauigkeit zu gewinnen. Die technische Analyse zeigt, warum Standard-RAG-Pipelines für analytische Abfragen ungeeignet sind. Beim Verarbeiten von CSV-Dateien werden Datenzeilen in flachen Text umgewandelt und über semantische Ähnlichkeit zurückgegeben. Da das Sprachmodell nur einen Bruchteil des Gesamtdatensatzes sieht, kann es keine vollständigen Summen oder statistischen Kennzahlen berechnen. Stattdessen imitiert es durch Mustererkennung die Struktur eines Datenberichts. Erweitert man das Kontextfenster, steigt die Antwortlänge und das Vertrauen der Nutzer, während der Fehleranteil oft bei über fünfzig Prozent verbleibt. Als Architektur-Ansatz wurde ein hybrides Routing-System entwickelt. Eine Intent-Klassifizierungsschicht wertet jede Abfrage vor der Verarbeitung aus und leitet sie in einen der beiden Pfade weiter. Anfragen mit aggregierenden Verben wie Gesamtsumme, Durchschnitt oder Zählweise werden deterministisch an eine semantische Engine weitergeleitet. Diese führt einen einzigen vollständigen Durchlauf über den gesamten Datensatz durch, ohne Embeddings oder LLM-Inferenz. Suchanfragen nach einzelnen Datensätzen verbleiben hingegen im RAG-Standardpfad. Im Benchmark übertraf die Routing-Lösung konventionelle Ansätze deutlich. Bei einem Testdatensatz mit hunderttausend Transaktionen lieferten aggregierende Abfragen exakte Ergebnisse in unter zweihundert Millisekunden. Die Genauigkeit lag bei neun getesteten Query-Typen bei einhundert Prozent. Der Overhead durch die Routing-Entscheidung liegt bei wenigen Mikrosekunden und übertrifft die Latenz eines einzigen Embedding-Vorgangs. Das implementierte Open-Source-Framework verzichtet vollständig auf externe Abhängigkeiten und API-Kosten. Es unterstützt alle gängigen Aggregationsfunktionen, numerische Filter und Gruppierungen direkt über strukturierte CSV-Dateien. Die Architektur stellt klar, dass RAG nicht defekt ist, sondern an seiner eigentlichen Stärke scheitert, wenn es zur Berechnung herangezogen wird. Durch die strikte Trennung von Datenabruf und deterministischer Auswertung lassen sich präzise Analysen ohne das Risiko systematischer Fehler oder falscher Sicherheit erreichen. Der vollständige Code steht zur freien Verfügung.
