CompreCap 데이터 세트는 중국 과학기술대학과 Ant Group이 2024년에 공동으로 제작한 것으로, 대규모 시각 언어 모델이 자세한 이미지 설명을 생성하는 데 있어 정확성과 포괄성을 평가하기 위해 만들어졌습니다. 관련 논문 결과는 "포괄적인 이미지 캡션을 위한 지향성 장면 그래프를 통한 대규모 시각 언어 모델 벤치마킹". 이 데이터 세트에는 560개의 이미지가 포함되어 있으며, 각 이미지는 객체, 속성, 관계로 정교하게 의미적으로 분할되고 주석이 추가되어 완전한 지향형 장면 그래프 구조를 형성합니다.
이 데이터 세트는 MSCOCO 파노라마 분할 데이터 세트를 기반으로 구축되었지만, 확장 및 개선되었습니다. 연구자들은 여러 개의 잘 알려진 데이터 세트에서 일반적인 객체 범주에 대한 어휘를 구축하고 이러한 범주에 다시 주석을 달아 더욱 정확한 의미 분할 마스크를 제공했습니다. 주석의 완전성을 보장하기 위해 분할된 영역이 95% 이미지 영역 이상을 덮는 이미지만 보존됩니다. 그런 다음 연구자들은 이러한 객체에 대한 자세한 속성 설명을 수동으로 추가하고 객체 간의 중요한 관계에 주석을 달아 완전한 방향성 장면 그래프 구조를 형성했습니다.
CompreCap 데이터 세트의 주석 정보에는 객체의 의미적 분할 마스크, 자세한 속성 설명, 객체 간의 방향 관계가 포함됩니다. 이러한 주석은 일반적인 객체 범주를 다룰 뿐만 아니라 방향성 있는 장면 그래프 형태로 객체 간의 복잡한 관계를 포착하여 데이터 세트가 자세한 이미지 설명을 생성하는 품질을 종합적으로 평가할 수 있도록 합니다.
