HyperAI超神经

CompreCap 图像描述数据集

日期

4 个月前

大小

46.29 MB

机构

蚂蚁集团

发布地址

github.com

CompreCap 数据集是由中国科学技术大学和蚂蚁集团等机构于 2024 年合作创建的,旨在评估大型视觉-语言模型在生成详细图像描述时的准确性和全面性,相关论文成果为「Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning」。该数据集包含 560 张图像,每张图像都经过精细的语义分割和对象、属性及关系的标注,形成了一个完整的定向场景图结构。

数据集的构建基于 MSCOCO 全景分割数据集,但进行了扩展和改进。研究人员从多个知名数据集中构建了一个常见物体类别词汇表,并对这些类别进行了重新标注,提供了更精确的语义分割掩码。为了确保标注的完整性,仅保留了分割区域覆盖超过 95% 图像面积的图片。随后,研究人员手动为这些物体添加了详细的属性描述,并标注了物体间的重要关系,形成了完整的定向场景图结构。

CompreCap 数据集的标注信息包括物体的语义分割掩码、详细的属性描述以及物体间的定向关系。这些标注信息不仅涵盖了常见的物体类别,还通过定向场景图的形式捕捉了物体间的复杂关系,使得数据集能够全面评估生成详细图像描述的质量。

CompreCap.torrent
做种 1正在下载 0已完成 39总下载次数 55
  • CompreCap/
    • README.md
      2.05 KB
    • README.txt
      4.11 KB
      • data/
        • CompreCap.zip
          46.29 MB