2 个月前
MA-LMM:增强记忆的大规模多模态模型用于长期视频理解
Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim

摘要
随着大型语言模型(LLMs)的成功,将视觉模型集成到LLMs中以构建视觉-语言基础模型最近引起了更多的关注。然而,现有的基于LLM的大型多模态模型(例如,Video-LLaMA、VideoChat)只能处理有限数量的帧,用于短视频理解。本研究主要集中在设计一种高效且有效的模型,以实现长期视频理解。与大多数现有工作试图同时处理更多帧不同,我们提出了一种在线处理视频的方法,并将过去的视频信息存储在记忆库中。这使得我们的模型能够在不超出LLMs上下文长度限制或GPU内存限制的情况下,引用历史视频内容进行长期分析。我们的记忆库可以无缝集成到当前的多模态LLMs中,采用即插即用的方式。我们在各种视频理解任务上进行了广泛的实验,包括长期视频理解、视频问答和视频字幕生成,结果表明我们的模型在多个数据集上均能达到最先进的性能。代码可在 https://boheumd.github.io/MA-LMM/ 获取。