
摘要
大型语言模型(LLMs)已经展现出卓越的文本理解能力,这些能力已被扩展到视频语言模型中,以处理视频数据并理解视觉细节。然而,现有的视频语言模型只能提供整个视频的粗略描述,无法捕捉特定事件的确切起始和结束时间边界。在本文中,我们通过提出VTimeLLM解决这一问题,这是一种新型的视频语言模型,旨在实现对视频时刻的细粒度理解和推理,特别是在时间边界方面。具体而言,我们的VTimeLLM采用了分阶段的边界感知训练策略,分别利用图像-文本对进行特征对齐、多事件视频增加时间边界意识以及高质量的视频指令调优进一步提升时间理解能力并使模型与人类意图保持一致。大量实验表明,在涉及视频的时间相关细粒度理解任务中,如时间定位和密集视频字幕生成,VTimeLLM显著优于现有的视频语言模型。此外,得益于其对视频时间边界的细粒度理解能力,VTimeLLM在视频对话基准测试中也超越了现有视频语言模型,展示了其出色的跨模态理解和推理能力。