9 天前
基于时间锚定桥的多模态大语言模型高效时间外推
Yuxuan Wang, Yueqian Wang, Pengfei Wu, Jianxin Liang, Dongyan Zhao, Yang Liu, Zilong Zheng

摘要
尽管多模态大语言模型(MLLMs)取得了显著进展,但在应对语言查询时对长视频内容的解读仍面临挑战,主要原因在于时间定位(temporal grounding)效率低下以及预训练上下文窗口尺寸有限。在本研究中,我们提出一种名为时间定位桥接框架(Temporal Grounding Bridge, TGB)的新方法,通过赋予MLLMs更强的时间定位能力并扩展其上下文范围,实现对长视频的高效理解。该框架通过三项关键创新显著提升了现有MLLMs的时间建模能力:第一,提出一种高效的多片段时间定位算法,作用于从光流信息中提取的低维时间特征;第二,设计了一种多模态长度外推训练范式,利用低维时间特征实现训练上下文窗口的扩展;第三,构建了一个可插拔的自举(bootstrapping)框架,能够在无需人工标注的情况下将我们的模型与各类可插拔的MLLMs进行融合。我们在七个视频基准测试上验证了TGB的有效性,结果表明其性能显著优于以往的MLLMs。尤为突出的是,我们的模型在仅以四帧序列进行初始训练的情况下,仍能有效处理长达16倍长度的视频序列,且不损失性能,充分体现了其在真实场景中的可扩展性与高效性。相关代码已公开,地址为:https://github.com/bigai-nlco/VideoTGB