2 个月前
一种用于长距离视频问答的简单LLM框架
Ce Zhang; Taixi Lu; Md Mohaiminul Islam; Ziyang Wang; Shoubin Yu; Mohit Bansal; Gedas Bertasius

摘要
我们介绍了LLoVi,一种基于语言的长距离视频问答(LVQA)框架。与以往的长距离视频理解方法不同,后者通常成本高昂且需要专门设计的长距离视频建模方案(例如,记忆队列、状态空间层等),我们的方法通过结合帧/片段级别的视觉描述器(如BLIP2、LaViLa、LLaVA)和大型语言模型(如GPT-3.5、GPT-4),构建了一个简单但出乎意料有效的LVQA框架。具体而言,我们将LVQA中的短程和长程建模方面分解为两个阶段。首先,我们使用短期视觉描述器从长时间输入视频中密集采样生成短视频片段(长度为0.5至8秒)的文字描述。随后,大型语言模型对这些密集提取的短期文字描述进行聚合,以执行所需的长程时间推理,从而理解整个视频并回答问题。为了分析我们的简单框架为何如此有效,我们对系统中的各个组件进行了详尽评估。实证分析表明,选择合适的视觉描述器和大型语言模型对于实现良好的LVQA性能至关重要。此外,我们发现使用一个专门设计的提示语,先要求大型语言模型总结嘈杂的短期视觉描述,再回答给定的问题,可以显著提升LVQA性能。在EgoSchema数据集上,该数据集以其非常长形式的视频问答基准而闻名,我们的方法达到了50.3%的准确率,比之前最佳的方法提高了18.1%(绝对增益)。此外,在NeXT-QA和IntentQA数据集上,我们的方法分别超过了之前的最先进水平4.1%和3.1%。我们还扩展了LLoVi的应用范围到基于证据的LVQA,并展示了其在NeXT-GQA数据集上的表现优于所有先前的方法。我们将发布代码于https://github.com/CeeZh/LLoVi。