Cops-Ref 目标物指代理解数据集

Cops-Ref 全称 Compositional Referring Expression Comprehension,是关于在目标物指代理解方面的视觉推理图像数据集。该数据集包含 75,299 张真实图像、 148,712 条文本描述和 1,307,885 个候选区域。
该数据集有两个主要特点,一是新的文本生成引擎,它能结合推理逻辑和视觉特征,进而生成不同复杂程度的文本描述;二是新的测试设置,在测试过程中对有语义相似的视觉图像进行干扰。
Cops-Ref 全称 Compositional Referring Expression Comprehension,是关于在目标物指代理解方面的视觉推理图像数据集。该数据集包含 75,299 张真实图像、 148,712 条文本描述和 1,307,885 个候选区域。
该数据集有两个主要特点,一是新的文本生成引擎,它能结合推理逻辑和视觉特征,进而生成不同复杂程度的文本描述;二是新的测试设置,在测试过程中对有语义相似的视觉图像进行干扰。