Violin 视频和语言推理数据集 机构 Carnegie Mellon University (卡耐基梅隆大学) 发布地址 github.com 论文地址 arxiv.org 分类 视频字幕 许可协议 其他 发布日期 7 个月前 标签 视频字幕、视频检索、问答数据集 暂无下载 本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用) 感谢您下载 Violin 视频和语言推理数据集! 本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。 获得数据集更新通知、下载过程发现问题、提供未引入数据集资源等,请关注公众号与我们沟通。 感谢您下载 Violin 视频和语言推理数据集! 点击前往百度网盘下载页面 本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。 关注公众号,获取数据集更新、人工智能相关的最新资讯 Violin 全称 VIdeO-and-Language INference,可用于对视频和文本进行多模态理解的任务。 该数据集包含来自 15,887 个视频剪辑的 95,322 个视频-假设对,包括超过 582 小时的视频。这些视频剪辑包含丰富内容,具有不同时间动态、事件变化和人际互动。数据是从两个来源收集的:(i) 流行电视节目,以及 (ii) 来自 YouTube 频道的电影剪辑。 相关数据集推荐 VQA-E 视觉问答解析数据集 5 个月前 VQA-E 全称 Visual Question Answering with Explanation,是带有解析的视觉问答数据集,其涉及的模型需要预测并生成答案解析。它是由 VQA v2 数据集自动衍生出来的,为每个“图像-问题-答案三要素”合成为一个文本解析,这使得问答过程更… QED 问答解析数据集 5 个月前 QED 全称 Dataset for Explanations in Question Answering,是一个由专家标注的问答解析数据集,建立在 Google Natural Questions 数据集的一个子集上。 QED 是用于问答解析的语言学原则性框架数。给定一个问题和… How 2R 视频检索数据集 5 个月前 How 2R 是一个关于基于文本的视频检索数据集。数据集包含从 HowTo 100M 数据集的 9,371 个视频中收集了 24,328 个 60s 片段及其 51,390 个相关查询词,平均每个片段有 2-3 个相关查询词。其中 80% 的数据用于训练,10% 的数据用于验证,…