Who’s Waldo 图片描述数据集 机构 Cornell University (康奈尔大学) 发布地址 whoswaldo.github.io 论文地址 paperswithcode.com 分类 视觉对话 许可协议 其他 发布日期 4 个月前 标签 视觉对话、视觉推理、视觉问答 暂无下载 本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用) 感谢您下载 Who’s Waldo 图片描述数据集! 本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。 获得数据集更新通知、下载过程发现问题、提供未引入数据集资源等,请关注公众号与我们沟通。 感谢您下载 Who’s Waldo 图片描述数据集! 点击前往百度网盘下载页面 本站基于知识共享许可协议,为国内用户提供公开数据集高速下载,仅用于科研与学术交流。 关注公众号,获取数据集更新、人工智能相关的最新资讯 Who’s Waldo 包含了 270k 个图片-文本对,并自动标注了提到的人名和他们相应的视觉区域之间的对齐关系。 Who’s Waldo 数据集是由 Wikimedia Commons 中免费许可的图片和描述构建的。Who’s Waldo 是一个基准数据集,用于以人为中心的视觉基础。 相关数据集推荐 VQA-E 视觉问答解析数据集 3 个月前 VQA-E 全称 Visual Question Answering with Explanation,是带有解析的视觉问答数据集,其涉及的模型需要预测并生成答案解析。它是由 VQA v2 数据集自动衍生出来的,为每个“图像-问题-答案三要素”合成为一个文本解析,这使得问答过程更… Cops-Ref 目标物指代理解数据集 3 个月前 Cops-Ref 全称 Compositional Referring Expression Comprehension,是关于在目标物指代理解方面的视觉推理图像数据集。该数据集包含 75,299 张真实图像、148,712 条文本描述和 1,307,885 个候选区域。 该数据… FM-IQA 多语种问答数据集 3 个月前 FM-IQA 全称 Freestyle Multilingual Image Question Answering,是一个问答数据集,包含 15 万张图像和 31 万个自由式中文问答对及其英文翻译。该数据集可用于训练和评估 mQA 模型。该模型可用于回答关于图像内容的问题,答案可…