2 个月前

LITA:语言指导的时间定位助手

De-An Huang; Shijia Liao; Subhashree Radhakrishnan; Hongxu Yin; Pavlo Molchanov; Zhiding Yu; Jan Kautz
LITA:语言指导的时间定位助手
摘要

在多模态大语言模型(LLMs)领域已经取得了巨大进展。近期的研究工作已将这些模型扩展到视频输入,并展示了令人鼓舞的指令跟随能力。然而,一个重要的缺失环节是时间定位。这些模型无法准确回答“何时?”类问题。我们确定了限制其时间定位能力的三个关键方面:(i) 时间表示,(ii) 模型架构,(iii) 数据。为了解决这些问题,我们提出了语言指导的时间定位助手(LITA),具有以下特点:(1) 引入时间标记,该标记编码相对于视频长度的时间戳,以更好地表示视频中的时间。(2) 在模型架构中引入SlowFast标记,以在细粒度时间分辨率下捕捉时间信息。(3) 我们强调用于LITA的时间定位数据。除了利用现有的带有时间戳的视频数据集外,我们还提出了一项新任务——推理时间定位(RTL),并提供了相应的数据集ActivityNet-RTL,用于学习和评估这一任务。推理时间定位不仅要求视频LLMs具备推理能力,还需要它们进行时间定位。LITA在这项具有挑战性的任务上表现出色,几乎将基线模型的时间平均交并比(mIoU)提高了一倍。此外,我们还展示了对时间定位的重视显著提升了基于视频的文本生成效果,相比现有的视频LLMs,在时间理解方面相对提高了36%。代码可在以下地址获取:https://github.com/NVlabs/LITA