2 个月前

MA-LMM：增强记忆的大规模多模态模型用于长期视频理解

Bo He, Hengduo Li, Young Kyun Jang, Menglin Jia, Xuefei Cao, Ashish Shah, Abhinav Shrivastava, Ser-Nam Lim

摘要

随着大型语言模型（LLMs）的成功，将视觉模型集成到LLMs中以构建视觉-语言基础模型最近引起了更多的关注。然而，现有的基于LLM的大型多模态模型（例如，Video-LLaMA、VideoChat）只能处理有限数量的帧，用于短视频理解。本研究主要集中在设计一种高效且有效的模型，以实现长期视频理解。与大多数现有工作试图同时处理更多帧不同，我们提出了一种在线处理视频的方法，并将过去的视频信息存储在记忆库中。这使得我们的模型能够在不超出LLMs上下文长度限制或GPU内存限制的情况下，引用历史视频内容进行长期分析。我们的记忆库可以无缝集成到当前的多模态LLMs中，采用即插即用的方式。我们在各种视频理解任务上进行了广泛的实验，包括长期视频理解、视频问答和视频字幕生成，结果表明我们的模型在多个数据集上均能达到最先进的性能。代码可在 https://boheumd.github.io/MA-LMM/ 获取。