HaluMem: Evaluierung von Halluzinationen in Speichersystemen von Agenten
Ding Chen Simin Niu Kehang Li Peng Liu Xiangping Zheng Bo Tang Xinchi Li Feiyu Xiong Zhiyu Li

Abstract
Speichersysteme sind zentrale Komponenten, die KI-Systeme wie große Sprachmodelle (LLMs) und KI-Agenten die Fähigkeit zu langfristigem Lernen und nachhaltiger Interaktion ermöglichen. Bei der Speicherung und Abruf von Informationen treten in diesen Systemen jedoch häufig Speicherhalluzinationen auf, wie beispielsweise Erfindungen, Fehler, Widersprüche und Auslassungen. Die bisherigen Evaluierungen von Speicherhalluzinationen basieren hauptsächlich auf end-to-end-Beantwortung von Fragen, wodurch es schwierig ist, die spezifische Stufe innerhalb des Speichersystems zu lokalisieren, an der Halluzinationen entstehen. Um dies zu überwinden, führen wir den Hallucination in Memory Benchmark (HaluMem) ein – den ersten auf Operationsstufe ausgerichteten Evaluationsbenchmark speziell für Speichersysteme. HaluMem definiert drei Evaluationstasks (Speicherextraktion, Speicheraktualisierung und Speicher-Fragenbeantwortung), um Halluzinationsverhalten über verschiedene Stadien der Interaktion umfassend aufzudecken. Zur Unterstützung der Evaluation erstellen wir benutzerzentrierte, mehrrunde Interaktionsdatensätze zwischen Mensch und KI, die HaluMem-Medium und HaluMem-Long. Beide enthalten jeweils etwa 15.000 Speicherpunkte und 3.500 Fragen unterschiedlicher Typen. Die durchschnittliche Dialoglänge pro Benutzer beträgt 1.500 bzw. 2.600 Runden, wobei die Kontextlängen über eine Million Tokens überschreiten. Damit ermöglichen die Datensätze die Bewertung von Halluzinationen bei unterschiedlichen Kontextgrößen und Aufgabenkomplexitäten. Empirische Studien basierend auf HaluMem zeigen, dass bestehende Speichersysteme tendenziell Halluzinationen während der Extraktions- und Aktualisierungsstufen generieren und akkumulieren, wodurch sich Fehler in die Fragenbeantwortungsstufe fortsetzen. Zukünftige Forschung sollte sich auf die Entwicklung interpretierbarer und eingeschränkter Speicheroperationen konzentrieren, die Halluzinationen systematisch unterdrücken und die Zuverlässigkeit des Speichers verbessern.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.