VALUE 视频语言理解评估数据集

日期

2 年前

机构

Microsoft

许可协议

其他

下载帮助
特色图像

VALUE 全称 Video-And-Language Understanding Evaluation,是一个关于视频和语言理解评估的数据集。该数据集是 11 个 VidL(视频和语言)数据集的集合,可用于 3 个常见任务:文本到视频检索;视频问题解答以及视频字幕。 VALUE 目标是涵盖广泛的视频类型、视频长度、数据量和任务难度级别。 VALUE 不仅专注于单通道视频视觉信息,也推广利用视频帧及其相关字幕信息的模型和跨多个任务共享知识的模型。

用于 VALUE 数据集基准测试的数据集有:TVQA 、 TVR 、 TVC 、 How2R 、 How2QA 、 VIOLIN 、 VLEP 、 YouCook2(YC2C 、 YC2R)、 VATEX