Cops-Ref 目标物指代理解数据集

日期

1 年前

机构

The University of Hong Kong

发布地址

github.com

许可协议

其他

下载帮助
特色图像

Cops-Ref 全称 Compositional Referring Expression Comprehension,是关于在目标物指代理解方面的视觉推理图像数据集。该数据集包含 75,299 张真实图像、 148,712 条文本描述和 1,307,885 个候选区域。

该数据集有两个主要特点,一是新的文本生成引擎,它能结合推理逻辑和视觉特征,进而生成不同复杂程度的文本描述;二是新的测试设置,在测试过程中对有语义相似的视觉图像进行干扰。