19 天前
MovieChat+:面向长视频问答的问答感知稀疏记忆
Enxin Song, Wenhao Chai, Tian Ye, Jenq-Neng Hwang, Xi Li, Gaoang Wang

摘要
近年来,将视频基础模型与大语言模型相结合以构建视频理解系统,能够有效克服传统方法在特定预定义视觉任务上的局限性。然而,现有方法通常依赖复杂的时空模块,或严重依赖额外的感知模型来提取视频的时序特征,且仅在短视频上表现良好。对于长视频而言,长期时序关联带来的计算复杂度和内存开销显著增加,进一步加剧了技术挑战。针对这一问题,我们借鉴Atkinson-Shiffrin记忆模型的思想,将Transformer中的token作为记忆载体,并结合我们专门设计的记忆机制,提出了一种名为MovieChat的新方法,以应对上述挑战。该方法无需引入额外的可训练时序模块,即可实现预训练多模态大语言模型对长视频的理解,采用零样本(zero-shot)策略完成任务。MovieChat在长视频理解任务中取得了当前最优的性能表现。为验证方法的有效性,我们发布了MovieChat-1K基准数据集,包含1000段长视频、2000个时序定位标注以及14000条人工标注用于模型评估。相关代码与数据集已开源,可通过以下链接获取:https://github.com/rese1f/MovieChat。