CinePile 长视频理解问答数据集

当前用于长格式视频理解的数据集通常无法提供真正的长格式理解挑战,因为从这些数据集派生的许多任务可以通过分析视频中的一个或几个随机帧来成功解决。为了解决这个问题,研究团队提出了一个新颖的数据集和基准,CinePile,专为真实的长格式视频理解而设计。
研究团队利用先进的法学硕士和人机交互,并以人类生成的原始数据为基础。综合数据集包含 305,000 个多项选择题 (MCQ),涵盖各种视觉和多模态方面,包括时间理解、理解人与物体的交互以及场景内事件或动作的推理。此外,数据集的测试部分上还评估了最近以视频为中心的 LLM,包括开源的和专有的。研究结果表明,即使是最先进的以视频为中心的 LLM 在这些任务中的表现也明显落后于人类,这凸显了视频理解固有的复杂性和挑战。
CinePile.torrent
做种 1正在下载 1已完成 50总下载次数 75