Command Palette
Search for a command to run...
Hongda Jiang Xinyuan Zhang Siddhant Garg Rishab Arora Shiun-Zu Kuo et al

摘要
我们提出了 Memory-QA,这是一种新颖的现实世界任务,旨在基于先前存储的多模态记忆,回答关于视觉内容的回忆性问题。该任务面临诸多独特挑战,包括构建面向任务的多模态记忆、有效利用记忆中的时间与位置信息,以及能够综合调用多个记忆以回答回忆问题。为应对这些挑战,我们提出了一套完整的处理流程——Pensieve,该流程集成了面向记忆的增强技术、具备时间与位置感知能力的多信号检索机制,以及多记忆问答的微调策略。我们构建了一个多模态基准数据集,用以展示该任务中的各类现实挑战,并验证 Pensieve 在性能上显著优于现有最先进方法(在问答准确率上最高提升达14%)。