HyperAI超神经

CompreCap 数据集是由中国科学技术大学和蚂蚁集团等机构于 2024 年合作创建的，旨在评估大型视觉-语言模型在生成详细图像描述时的准确性和全面性，相关论文成果为「Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning」。该数据集包含 560 张图像，每张图像都经过精细的语义分割和对象、属性及关系的标注，形成了一个完整的定向场景图结构。

数据集的构建基于 MSCOCO 全景分割数据集，但进行了扩展和改进。研究人员从多个知名数据集中构建了一个常见物体类别词汇表，并对这些类别进行了重新标注，提供了更精确的语义分割掩码。为了确保标注的完整性，仅保留了分割区域覆盖超过 95% 图像面积的图片。随后，研究人员手动为这些物体添加了详细的属性描述，并标注了物体间的重要关系，形成了完整的定向场景图结构。

CompreCap 数据集的标注信息包括物体的语义分割掩码、详细的属性描述以及物体间的定向关系。这些标注信息不仅涵盖了常见的物体类别，还通过定向场景图的形式捕捉了物体间的复杂关系，使得数据集能够全面评估生成详细图像描述的质量。

CompreCap 图像描述数据集