6 天前

看、听、记、思:具备长期记忆的多模态Agent

Lin Long, Yichen He, Wentao Ye, Yiyuan Pan, Yuan Lin, Hang Li, Junbo Zhao, Wei Li
看、听、记、思:具备长期记忆的多模态Agent
摘要

我们提出 M3-Agent,一种具备长期记忆能力的新型多模态智能体框架。与人类类似,M3-Agent 能够处理实时的视觉与听觉输入,持续构建并更新其长期记忆。除了情景记忆外,它还能发展出语义记忆,从而随时间积累世界知识。其记忆以实体为中心、多模态的形式组织,能够实现对环境更深入、更一致的理解。在接收到任务指令后,M3-Agent 可自主开展多轮迭代式推理,并从记忆中检索相关信息以完成任务。为评估多模态智能体中记忆的有效性及其基于记忆的推理能力,我们构建了 M3-Bench——一个全新的长视频问答基准测试集。M3-Bench 包含 100 段由机器人视角新录制的真实世界视频(M3-Bench-robot)以及 929 段来自网络、涵盖多样化场景的视频(M3-Bench-web)。我们标注了大量问答对,旨在测试智能体在实际应用中至关重要的核心能力,如对人类行为的理解、通用知识的提取以及跨模态推理能力。实验结果表明,经过强化学习训练的 M3-Agent 在性能上超越了最强基线模型——使用 Gemini-1.5-pro 和 GPT-4o 的提示型智能体,在 M3-Bench-robot、M3-Bench-web 和 VideoMME-long 三个测试集上分别实现了 6.7%、7.7% 和 5.3% 的准确率提升。本工作推动了多模态智能体向更接近人类的长期记忆能力迈进,并为其实际设计提供了重要启示。模型、代码与数据已开源,访问地址为:https://github.com/bytedance-seed/m3-agent