HyperAIHyperAI

Command Palette

Search for a command to run...

MemLens 多模态长上下文基准数据集

日期

1 个月前

许可证

CC BY 4.0

MemLens 是一个用于评估视觉语言模型长程对话记忆的基准数据集,旨在测试模型在 32K 、 64K 、 128K 及 256K 上下文窗口中,检索、回忆、更新及推理跨多会话对话中嵌入的视觉与文本信息的能力。 该数据集共包含 789 道题目,涵盖 5 种评估类型:信息提取、知识更新、时序推理、多会话推理与拒绝回答(Abstention),并提供 4 个上下文长度配置(32K / 64K / 128K / 256K)。该数据集额外提供一份 195 道题的固定分层采样子集,专门用于内存增强智能体(Memory-augmented Agents)的评估,以平衡推理成本。

Citation

@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供