摘要

标题：（无标题）摘要：记忆对于大型视觉-语言模型（LVLMs）处理长程、多模态交互至关重要，目前提供该能力的两种方法方向分别为长上下文 LVLMs 和记忆增强型智能体（agents）。然而，现有的基准测试均未在真正需要多模态证据的问题上对这两种方法进行系统比较。为弥补这一空白，我们引入了 MEMLENS，这是一个针对多模态多会话对话中记忆能力的综合基准测试，包含 789 个问题，涵盖五种记忆能力（信息提取、多会话推理、时间推理、知识更新和答案拒绝），并在跨模态 token 计数方案下设置了四种标准上下文长度（32K-256K tokens）。图像消融研究证实，解决 MEMLENS 任务需要视觉证据：移除证据图像后，两个前沿 LVLMs 在 80.4% 包含图像证据的问题上的准确率降至 2% 以下。我们对 27 个 LVLMs 和 7 个记忆增强型 agents 进行了评估，发现长上下文 LVLMs 通过直接视觉 grounding 实现了较高的短上下文准确率，但随着对话长度增加，其性能出现下降；而记忆 agents 则表现出长度稳定性，但在存储时间压缩过程中损失了视觉保真度。多会话推理任务使大多数系统的准确率低于 30%，且单一方法均无法有效解决该任务。这些结果激发了结合长上下文注意力与结构化多模态检索的混合架构的研究动机。我们的代码已开源，地址为 https://github.com/xrenaf/MEMLENS。

源 PDF 查看代码