@inproceedings{ren2026memlens, title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models}, author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon}, booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track}, year={2026} }

日期

1 个月前

许可证

CC BY 4.0

标签

多模态

基准

Agent

MemLens 是一个用于评估视觉语言模型长程对话记忆的基准数据集，旨在测试模型在 32K 、 64K 、 128K 及 256K 上下文窗口中，检索、回忆、更新及推理跨多会话对话中嵌入的视觉与文本信息的能力。该数据集共包含 789 道题目，涵盖 5 种评估类型：信息提取、知识更新、时序推理、多会话推理与拒绝回答（Abstention），并提供 4 个上下文长度配置（32K / 64K / 128K / 256K）。该数据集额外提供一份 195 道题的固定分层采样子集，专门用于内存增强智能体（Memory-augmented Agents）的评估，以平衡推理成本。

Citation

@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

HyperAI

使用此数据集在 Discord 上讨论

日期

1 个月前

许可证

CC BY 4.0

标签

多模态

基准

Agent

Citation

@inproceedings{ren2026memlens,
title={{MemLens}: Benchmarking Multimodal Long-Context Conversational Memory in Vision-Language Models},
author={Ren, Xiyu and Wang, Zhaowei and Du, Yiming and Xie, Zhongwei and Liu, Chi and Yang, Xinlin and Feng, Haoyue and Pan, Wenjun and Zheng, Tianshi and Xu, Baixuan and Li, Zhengnan and Song, Yangqiu and Wong, Ginny and See, Simon},
booktitle={Advances in Neural Information Processing Systems (NeurIPS), Datasets and Benchmarks Track},
year={2026}
}

此数据集由社区用户贡献,仅用于教育和信息目的。如有任何内容涉及版权侵权,请通过 [email protected] 联系我们,我们将及时审核并删除。

TACK 靶向嵌合体知识库数据集

20 天前

chi-bench 医疗智能体基准评测数据集

11 天前

ViMU 视频隐喻理解数据集

24 天前

MathNet 多模态数学基准推理数据集

1 个月前

Claw-Eval 真实世界评测基准数据集

1 个月前

Eye Disease Classification Fundus 眼底疾病分类数据集

1 个月前

RSRCC 遥感区域变化理解基准数据集

6 天前

MIA 多步推理与决策轨迹数据集

2 个月前

OmniParsingBench 多模态解析能力评估数据集

6 天前

Sutra 10B Pretraining 教学训练数据集

3 个月前

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

MemLens 多模态长上下文基准数据集

Citation

用 AI 构建 AI

HyperAI Newsletters

Command Palette

MemLens 多模态长上下文基准数据集

Citation

相关数据集

TACK 靶向嵌合体知识库数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

RSRCC 遥感区域变化理解基准数据集

MIA 多步推理与决策轨迹数据集

OmniParsingBench 多模态解析能力评估数据集

Sutra 10B Pretraining 教学训练数据集

用 AI 构建 AI

HyperAI Newsletters

Command Palette

MemLens 多模态长上下文基准数据集

Citation

相关数据集

TACK 靶向嵌合体知识库数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

RSRCC 遥感区域变化理解基准数据集

MIA 多步推理与决策轨迹数据集

OmniParsingBench 多模态解析能力评估数据集

Sutra 10B Pretraining 教学训练数据集

用 AI 构建 AI

HyperAI Newsletters

相关数据集

TACK 靶向嵌合体知识库数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

RSRCC 遥感区域变化理解基准数据集

MIA 多步推理与决策轨迹数据集

OmniParsingBench 多模态解析能力评估数据集

Sutra 10B Pretraining 教学训练数据集

相关数据集

TACK 靶向嵌合体知识库数据集

chi-bench 医疗智能体基准评测数据集

ViMU 视频隐喻理解数据集

MathNet 多模态数学基准推理数据集

Claw-Eval 真实世界评测基准数据集

Eye Disease Classification Fundus 眼底疾病分类数据集

RSRCC 遥感区域变化理解基准数据集

MIA 多步推理与决策轨迹数据集

OmniParsingBench 多模态解析能力评估数据集

Sutra 10B Pretraining 教学训练数据集