2 个月前

电影对话:从密集 token 到稀疏记忆的长视频理解

Enxin Song; Wenhao Chai; Guanhong Wang; Yucheng Zhang; Haoyang Zhou; Feiyang Wu; Haozhe Chi; Xun Guo; Tian Ye; Yanting Zhang; Yan Lu; Jenq-Neng Hwang; Gaoang Wang
电影对话:从密集 token 到稀疏记忆的长视频理解
摘要

近日,通过整合视频基础模型和大规模语言模型来构建视频理解系统,可以克服特定预定义视觉任务的局限性。然而,现有的系统只能处理帧数非常少的视频。对于长视频而言,计算复杂度、内存成本以及长时间的时间连接性带来了额外的挑战。借鉴阿特金森-希夫林记忆模型(Atkinson-Shiffrin memory model),我们将Transformer中的标记(tokens)作为记忆载体,并结合我们专门设计的记忆机制,提出了MovieChat以应对这些挑战。MovieChat在长视频理解方面达到了最先进的性能,并发布了包含1000部长视频和14000个人工注释的MovieChat-1K基准数据集,用于验证我们方法的有效性。