VCR 视觉常识推理数据集 机构 University of Washington (华盛顿大学) 发布地址 visualcommonsense.com 论文地址 arxiv.org 分类 智能问答 许可协议 其他 发布日期 5 个月前 标签 国外高校、常识推理、视觉问答 暂无下载 本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用) 感谢您下载 VCR 视觉常识推理数据集! 本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。 获得数据集更新通知、下载过程发现问题、提供未引入数据集资源等,请关注公众号与我们沟通。 感谢您下载 VCR 视觉常识推理数据集! 点击前往百度网盘下载页面 本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。 关注公众号,获取数据集更新、人工智能相关的最新资讯 VCR 全称 Visual Commonsense Reasoning,是一个用于视觉常识推理的大规模数据集。该数据集提出了关于图像的具有挑战性的问题,机器需要完成两个子任务:正确回答问题以及提供理由证明其答案的合理性。 VCR 数据集包含大量问题,其中 212K 个用于训练,26K 个用于验证,25K 个用于测试。答案和理由来自超过 110K 个不重复的电影场景。 相关数据集推荐 HumanAct 12 三维人体动作图像数据集 3 个月前 这是一个新型三维人体动作图像数据集,图像选自极坐标图像和三维姿势数据集 PHSPD,具有适当的时间裁剪和动作标注。该数据集有 1,191 个三维动作片段,90,099 个姿势,这些动作被分为 12 个动作类别和 34 个细化的子类别。动作类型包括日常运动,如走、跑、坐、跳、热身等… MEIR 多模态实体图像再利用数据集 3 个月前 MEIR 全称 Multimodal Entity Image Repurposing,是关于图像再利用检测研究的数据集,比之前相类似的数据集更具有挑战性。该数据集包含对真实数据进行位置、人物和组织的操作,这些数据源于 Flicker。 METU Trademark 商标图像数据集 3 个月前 METU 全称 Middle East Technical University,METU Trademark 是一个大型商标图像数据集,包含 923,343 张不同类型的商标图像(仅有文字的商标、仅有图像的商标、文字和图形组合商标)。截至 2014 年,它是最大的公开可用的商标…