Violin 视频和语言推理数据集

日期

3 years ago

机构

发布地址

许可协议

其他

标签

分类

Violin 全称 VIdeO-and-Language INference，可用于对视频和文本进行多模态理解的任务。

该数据集包含来自 15,887 个视频剪辑的 95,322 个视频-假设对，包括超过 582 小时的视频。这些视频剪辑包含丰富内容，具有不同时间动态、事件变化和人际互动。数据是从两个来源收集的：(i) 流行电视节目，以及 (ii) 来自 YouTube 频道的电影剪辑。