Command Palette
Search for a command to run...
MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen
MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen
Zusammenfassung
Gedächtnis ist für große Vision-Sprache-Modelle (LVLMs) unerlässlich, um lange, multimodale Interaktionen zu bewältigen. Zwei methodische Ansätze bieten diese Fähigkeit: LVLMs mit langem Kontext und gedächtniserweiterte Agents. Bisher führt kein bestehender Benchmark einen systematischen Vergleich der beiden Ansätze bei Fragen durch, die tatsächlich multimodale Evidenz erfordern. Um diese Lücke zu schließen, stellen wir MEMLENS vor, einen umfassenden Benchmark für Gedächtnis in multimodalen Multi-Session-Konversationen. Dieser umfasst 789 Fragen zu fünf Gedächtnisfähigkeiten (Informationsextraktion, Multi-Session-Reasoning, zeitliches Reasoning, Wissensaktualisierung und Antwortverweigerung) bei vier standardisierten Kontextlängen (32K–256K tokens) unter einem cross-modalen Token-Zählverfahren. Eine Image-Ablationsstudie bestätigt, dass zur Lösung von MEMLENS visuelle Evidenz erforderlich ist: Das Entfernen der Evidenzbilder lässt zwei führende LVLMs bei 80,4 % der Fragen, deren Evidenz Bilder enthält, unter eine Genauigkeit von 2 % sinken. Bei der Auswertung von 27 LVLMs und 7 gedächtniserweiterten Agents stellen wir fest, dass LVLMs mit langem Kontext eine hohe Genauigkeit bei kurzen Kontexten durch direkte visuelle Verankerung erreichen, jedoch mit wachsender Gesprächslänge an Leistung verlieren. Gedächtnis-Agents sind hingegen stabil bezüglich der Kontextlänge, verlieren jedoch unter der Kompression während der Speicherzeit an visueller Treue. Multi-Session-Reasoning hält die meisten Systeme unter 30 %, und kein Ansatz allein löst die Aufgabe. Diese Ergebnisse motivieren hybride Architekturen, die lange Kontext-Aufmerksamkeit mit strukturierter multimodaler Abfrage kombinieren. Unser Code ist verfügbar unter https://github.com/xrenaf/MEMLENS.