HyperAIHyperAI

Command Palette

Search for a command to run...

MemLens Multimodal Long Context Benchmark-Datensatz

Datum

vor einem Monat

Lizenz

CC BY 4.0

MemLens ist ein Benchmark-Datensatz zur Evaluierung des Langzeitgedächtnisses für Dialoge in visuellen Sprachmodellen. Er dient dazu, die Fähigkeit des Modells zu testen, visuelle und textuelle Informationen, die in Dialogen mit mehreren Gesprächspartnern eingebettet sind, innerhalb von Kontextfenstern von 32K, 64K, 128K und 256K abzurufen, zu erinnern, zu aktualisieren und zu erschließen. Dieser Datensatz umfasst 789 Fragen, die fünf Bewertungstypen abdecken: Informationsextraktion, Wissensaktualisierung, zeitliches Schließen, Schließen über mehrere Konversationen hinweg und Ablehnung (Enthaltung). Er bietet vier Konfigurationen der Kontextlänge (32K / 64K / 128K / 256K). Zusätzlich wird eine geschichtete Teilmenge von 195 Fragen mit festem Schwierigkeitsgrad bereitgestellt, die speziell zur Bewertung von speichererweiterten Agenten und zum Ausgleich der Inferenzkosten dient.

Zitat

@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp