2 个月前

CinePile:长视频问答数据集与基准测试

Ruchit Rawal; Khalid Saifullah; Miquel Farré; Ronen Basri; David Jacobs; Gowthami Somepalli; Tom Goldstein
CinePile:长视频问答数据集与基准测试
摘要

当前用于长视频理解的数据集往往无法提供真正的长视频理解挑战,因为从这些数据集中派生出的许多任务可以通过分析视频中的一个或几个随机帧来成功解决。为了解决这一问题,我们提出了一种新的数据集和基准测试——CinePile,专门设计用于真实的长视频理解。本文详细介绍了我们创新的方法,该方法利用了先进的人工智能语言模型(LLMs)并结合人工干预,基于人类生成的原始数据构建了一个问答数据集。我们的综合数据集包含305,000个选择题(MCQs),涵盖了多种视觉和多模态方面,包括时间理解、人物与物体互动的理解以及对场景中事件或行为的推理。此外,我们在训练集上对开源的视频语言模型(Video-LLMs)进行了微调,并在测试集上评估了开源和专有的以视频为中心的语言模型。研究结果表明,尽管当前模型的表现不如人类,但通过微调这些模型可以显著提高其性能。

CinePile:长视频问答数据集与基准测试 | 最新论文 | HyperAI超神经