Jenseits der Faktenabfrage: Episodisches Gedächtnis für RAG mit generativen semantischen Workspaces
Shreyas Rajesh Pavan Holur Chenda Duan David Chong Vwani Roychowdhury

Abstract
Große Sprachmodelle (LLMs) stehen vor grundlegenden Herausforderungen bei der Verarbeitung langer Kontexte: Viele Dokumente überschreiten ihre endlichen Kontextfenster, während die Leistung bei Texten, die in das Fenster passen, mit zunehmender Sequenzlänge abnimmt, was eine Erweiterung durch externe Speicherframeworks erforderlich macht. Aktuelle Lösungen, die sich von der Recherche mittels semantischer Embeddings zu anspruchsvolleren strukturierten Wissensgraphen entwickelt haben, um die Sinnzusammenhänge und Assoziationsfähigkeit zu verbessern, sind auf die reine Faktenretrieval-Optimierung zugeschnitten und verfehlen es, die räumlich-zeitlich verankerten Erzählrepräsentationen zu schaffen, die zur Verfolgung von Entitäten über episodische Ereignisse notwendig sind. Um diese Lücke zu schließen, schlagen wir den generativen semantischen Arbeitsraum (Generative Semantic Workspace, GSW) vor, ein neuroinspiriertes, generatives Speicherframework, das strukturierte, interpretierbare Repräsentationen sich verändernder Situationen aufbaut und LLMs ermöglicht, über sich verändernde Rollen, Aktionen und räumlich-zeitliche Kontexte zu reflektieren. Unser Framework besteht aus einem Operator, der eingehende Beobachtungen in intermediäre semantische Strukturen abbildet, und einem Rekonciliator, der diese in einen persistierenden Arbeitsraum integriert, der zeitliche, räumliche und logische Kohärenz gewährleistet. Auf dem Episodic Memory Benchmark (EpBench) [Huet et al., 2025], der Korpora mit einer Länge von 100.000 bis 1 Mio. Token umfasst, übertrifft GSW bestehende RAG-basierte Baselines um bis zu 20 %. Zudem ist GSW äußerst effizient: Im Vergleich zur nächst-effizientesten Baseline reduziert sie die Anzahl an Kontexttokens zur Abfragezeit um 51 %, wodurch die Inference-Kosten erheblich sinken. In weiterer Perspektive bietet GSW eine konkrete Vorgehensweise, um LLMs menschenähnliche episodische Erinnerung zu verleihen und damit den Weg für leistungsfähigere Agenten zu ebnen, die über lange Zeiträume hinweg reflektieren können.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.