8 个月前

摘要

大型语言模型（LLMs）在从长文本中检索信息方面表现出色，但其视觉-语言模型（VLMs）在处理长达数小时的视频时面临困难，尤其是在时间定位方面。具体而言，这些VLMs受到帧数限制的影响，常常丢失用于准确定位事件所需的关键时间细节。我们提出了一种递归视觉-语言模型——ReVisionLLM，该模型旨在定位长达数小时的视频中的事件。受人类搜索策略的启发，我们的模型首先瞄准广泛的感兴趣段落，逐步调整其关注点以精确锁定时间边界。该模型可以无缝处理长度差异极大的视频，从几分钟到几小时不等。我们还引入了一种分层训练策略，从短片段开始捕捉不同事件，并逐渐扩展到更长的视频。据我们所知，ReVisionLLM是首个能够在长达数小时的视频中进行时间定位的VLM，在多个数据集上的表现显著优于先前的最先进方法（在MAD数据集上[email protected]指标提高了2.6%）。代码已发布在 https://github.com/Tanveer81/ReVisionLLM。

源 PDF