2 个月前
HawkEye:训练视频-文本LLM以实现文本在视频中的定位
Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

摘要
视频-文本大语言模型(video-text LLMs)在回答问题和进行简单视频对话方面表现出色。然而,它们在长而复杂的视频中对文本查询的定位表现几乎与随机猜测无异,缺乏理解和推理时间信息的能力,这是视频与图像之间最根本的区别。本文提出了一种名为HawkEye的新型视频-文本大语言模型,该模型能够在完全以文本到文本的方式执行时间视频定位。为了收集适用于时间视频定位的训练数据,我们构建了InternVid-G,一个包含段落级字幕和负向片段的大规模视频-文本语料库,并在此基础上为视频-文本大语言模型引入了两个新的时间感知训练目标。我们还提出了一种粗粒度表示视频片段的方法,这种方法比其他替代方案更加稳健且易于被大语言模型学习和遵循。大量实验表明,HawkEye在时间视频定位方面优于现有模型,在其他视频-文本任务上的表现也与现有模型相当,这验证了其卓越的视频-文本多模态理解能力。