HyperAIHyperAI

Command Palette

Search for a command to run...

MA-LMM:增强记忆的大规模多模态模型用于长期视频理解

Bo He Hengduo Li Young Kyun Jang Menglin Jia Xuefei Cao Ashish Shah Abhinav Shrivastava Ser-Nam Lim

摘要

随着大型语言模型(LLMs)的成功,将视觉模型集成到LLMs中以构建视觉-语言基础模型最近引起了更多的关注。然而,现有的基于LLM的大型多模态模型(例如,Video-LLaMA、VideoChat)只能处理有限数量的帧,用于短视频理解。本研究主要集中在设计一种高效且有效的模型,以实现长期视频理解。与大多数现有工作试图同时处理更多帧不同,我们提出了一种在线处理视频的方法,并将过去的视频信息存储在记忆库中。这使得我们的模型能够在不超出LLMs上下文长度限制或GPU内存限制的情况下,引用历史视频内容进行长期分析。我们的记忆库可以无缝集成到当前的多模态LLMs中,采用即插即用的方式。我们在各种视频理解任务上进行了广泛的实验,包括长期视频理解、视频问答和视频字幕生成,结果表明我们的模型在多个数据集上均能达到最先进的性能。代码可在 https://boheumd.github.io/MA-LMM/ 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供