Cops-Ref 全称 Compositional Referring Expression Comprehension,是关于在目标物指代理解方面的视觉推理图像数据集。该数据集包含 75,299 张真实图像、148,712 条文本描述和 1,307,885 个候选区域。
该数据集有两个主要特点,一是新的文本生成引擎,它能结合推理逻辑和视觉特征,进而生成不同复杂程度的文本描述;二是新的测试设置,在测试过程中对有语义相似的视觉图像进行干扰。
本站暂不支持该数据集下载,如需下载请访问上述「发布地址」进行下载(如可用)
Cops-Ref 全称 Compositional Referring Expression Comprehension,是关于在目标物指代理解方面的视觉推理图像数据集。该数据集包含 75,299 张真实图像、148,712 条文本描述和 1,307,885 个候选区域。
该数据集有两个主要特点,一是新的文本生成引擎,它能结合推理逻辑和视觉特征,进而生成不同复杂程度的文本描述;二是新的测试设置,在测试过程中对有语义相似的视觉图像进行干扰。