2 个月前

时间敏感多模态大语言模型在长视频理解中的应用:TimeChat

Shuhuai Ren; Linli Yao; Shicheng Li; Xu Sun; Lu Hou
时间敏感多模态大语言模型在长视频理解中的应用:TimeChat
摘要

这项研究提出了TimeChat,一种专门设计用于长视频理解的时间敏感多模态大语言模型。我们的模型包含两个关键的架构贡献:(1) 时间戳感知帧编码器,该编码器将视觉内容与每一帧的时间戳绑定;(2) 滑动视频Q-Former,它生成长度可变的视频标记序列,以适应不同长度的视频。此外,我们构建了一个指令调优数据集,涵盖6项任务和总计12.5万个实例,以进一步提升TimeChat的指令跟随性能。实验结果表明,在各种视频理解任务(如密集字幕、时间定位和亮点检测)中,TimeChat展现了强大的零样本时间定位和推理能力。例如,在YouCook2数据集上,TimeChat的F1分数提高了9.2分,CIDEr分数提高了2.8分;在QVHighlights数据集上,HIT@1指标提高了5.8分;在Charades-STA数据集上,R@1(IoU=0.5)指标提高了27.5分。与现有的最先进的视频大语言模型相比,TimeChat具有作为多功能视频助手的巨大潜力,能够满足长视频理解任务中的实际用户需求。