HyperAI
Command Palette
Search for a command to run...
MemLens 多模态长上下文基准数据集
MemLens 是一个用于评估视觉语言模型长程对话记忆的基准数据集,旨在测试模型在 32K 、 64K 、 128K 及 256K 上下文窗口中,检索、回忆、更新及推理跨多会话对话中嵌入的视觉与文本信息的能力。 该数据集共包含 789 道题目,涵盖 5 种评估类型:信息提取、知识更新、时序推理、多会话推理与拒绝回答(Abstention),并提供 4 个上下文长度配置(32K / 64K / 128K / 256K)。该数据集额外提供一份 195 道题的固定分层采样子集,专门用于内存增强智能体(Memory-augmented Agents)的评估,以平衡推理成本。
Citation
@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}
此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。