Command Palette

Search for a command to run...

CinePile 长视频理解问答数据集

日期

1 年前

大小

88.04 MB

机构

University of Maryland

论文链接

arxiv.org

Featured Image

当前用于长格式视频理解的数据集通常无法提供真正的长格式理解挑战,因为从这些数据集派生的许多任务可以通过分析视频中的一个或几个随机帧来成功解决。为了解决这个问题,研究团队提出了一个新颖的数据集和基准,CinePile,专为真实的长格式视频理解而设计。

研究团队利用先进的法学硕士和人机交互,并以人类生成的原始数据为基础。综合数据集包含 305,000 个多项选择题 (MCQ),涵盖各种视觉和多模态方面,包括时间理解、理解人与物体的交互以及场景内事件或动作的推理。此外,数据集的测试部分上还评估了最近以视频为中心的 LLM,包括开源的和专有的。研究结果表明,即使是最先进的以视频为中心的 LLM 在这些任务中的表现也明显落后于人类,这凸显了视频理解固有的复杂性和挑战。

CinePile.torrent
做种 1正在下载 0已完成 169总下载次数 201
  • CinePile/
    • README.md
      1.71 KB
    • README.txt
      3.42 KB
      • data/
        • cinepile.zip
          88.04 MB

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供