vor 12 Stunden

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Zusammenfassung

Gedächtnis ist für große Vision-Sprache-Modelle (LVLMs) unerlässlich, um lange, multimodale Interaktionen zu bewältigen. Zwei methodische Ansätze bieten diese Fähigkeit: LVLMs mit langem Kontext und gedächtniserweiterte Agents. Bisher führt kein bestehender Benchmark einen systematischen Vergleich der beiden Ansätze bei Fragen durch, die tatsächlich multimodale Evidenz erfordern. Um diese Lücke zu schließen, stellen wir MEMLENS vor, einen umfassenden Benchmark für Gedächtnis in multimodalen Multi-Session-Konversationen. Dieser umfasst 789 Fragen zu fünf Gedächtnisfähigkeiten (Informationsextraktion, Multi-Session-Reasoning, zeitliches Reasoning, Wissensaktualisierung und Antwortverweigerung) bei vier standardisierten Kontextlängen (32K–256K tokens) unter einem cross-modalen Token-Zählverfahren. Eine Image-Ablationsstudie bestätigt, dass zur Lösung von MEMLENS visuelle Evidenz erforderlich ist: Das Entfernen der Evidenzbilder lässt zwei führende LVLMs bei 80,4 % der Fragen, deren Evidenz Bilder enthält, unter eine Genauigkeit von 2 % sinken. Bei der Auswertung von 27 LVLMs und 7 gedächtniserweiterten Agents stellen wir fest, dass LVLMs mit langem Kontext eine hohe Genauigkeit bei kurzen Kontexten durch direkte visuelle Verankerung erreichen, jedoch mit wachsender Gesprächslänge an Leistung verlieren. Gedächtnis-Agents sind hingegen stabil bezüglich der Kontextlänge, verlieren jedoch unter der Kompression während der Speicherzeit an visueller Treue. Multi-Session-Reasoning hält die meisten Systeme unter 30 %, und kein Ansatz allein löst die Aufgabe. Diese Ergebnisse motivieren hybride Architekturen, die lange Kontext-Aufmerksamkeit mit strukturierter multimodaler Abfrage kombinieren. Unser Code ist verfügbar unter https://github.com/xrenaf/MEMLENS.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 12 Stunden

Multimodal

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Auf Discord diskutieren

vor 12 Stunden

Multimodal

Visuelle Fragebeantwortung

Retrieval-Augmented Generation

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

MemLens: Benchmarking multimodaler Langzeitgedächtnis in großen Vision-Sprache-Modellen

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu4 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu

Xiyu Ren Zhaowei Wang Yiming Du Zhongwei Xie Chi Liu Xinlin Yang Haoyue Feng Wenjun Pan Tianshi Zheng Baixuan Xu