2 个月前
ReVisionLLM:用于小时长视频时序定位的递归视觉-语言模型
Hannan, Tanveer ; Islam, Md Mohaiminul ; Gu, Jindong ; Seidl, Thomas ; Bertasius, Gedas

摘要
大型语言模型(LLMs)在从长文本中检索信息方面表现出色,但其视觉-语言模型(VLMs)在处理长达数小时的视频时面临困难,尤其是在时间定位方面。具体而言,这些VLMs受到帧数限制的影响,常常丢失用于准确定位事件所需的关键时间细节。我们提出了一种递归视觉-语言模型——ReVisionLLM,该模型旨在定位长达数小时的视频中的事件。受人类搜索策略的启发,我们的模型首先瞄准广泛的感兴趣段落,逐步调整其关注点以精确锁定时间边界。该模型可以无缝处理长度差异极大的视频,从几分钟到几小时不等。我们还引入了一种分层训练策略,从短片段开始捕捉不同事件,并逐渐扩展到更长的视频。据我们所知,ReVisionLLM是首个能够在长达数小时的视频中进行时间定位的VLM,在多个数据集上的表现显著优于先前的最先进方法(在MAD数据集上[email protected]指标提高了2.6%)。代码已发布在 https://github.com/Tanveer81/ReVisionLLM。