CompreCap-Bildbeschreibungsdatensatz
Datum
Größe
Veröffentlichungs-URL
Der CompreCap-Datensatz wurde 2024 gemeinsam von der University of Science and Technology of China und der Ant Group erstellt, um die Genauigkeit und Vollständigkeit groß angelegter visueller Sprachmodelle bei der Generierung detaillierter Bildbeschreibungen zu bewerten. Die relevanten Papierergebnisse sind "Benchmarking großer Vision-Language-Modelle mittels gerichtetem Szenengraphen für umfassende Bildbeschriftung". Der Datensatz enthält 560 Bilder, von denen jedes fein semantisch segmentiert und mit Objekten, Attributen und Beziehungen annotiert wurde, um eine vollständige orientierte Szenengraphstruktur zu bilden.
Der Datensatz basiert auf dem panoptischen Segmentierungsdatensatz von MSCOCO, wurde jedoch erweitert und verbessert. Die Forscher erstellten aus mehreren bekannten Datensätzen ein Vokabular gängiger Objektkategorien und annotierten diese Kategorien neu, um genauere semantische Segmentierungsmasken bereitzustellen. Um die Vollständigkeit der Annotation zu gewährleisten, werden nur Bilder beibehalten, deren segmentierte Bereiche mehr als 95% Bildfläche abdecken. Anschließend fügten die Forscher manuell detaillierte Attributbeschreibungen für diese Objekte hinzu und kommentierten wichtige Beziehungen zwischen Objekten, um eine vollständige gerichtete Szenengraphstruktur zu erstellen.
Die Annotationsinformationen des CompreCap-Datensatzes umfassen die semantische Segmentierungsmaske des Objekts, eine detaillierte Attributbeschreibung und die Richtungsbeziehung zwischen Objekten. Diese Anmerkungen decken nicht nur allgemeine Objektkategorien ab, sondern erfassen auch die komplexen Beziehungen zwischen Objekten in Form gerichteter Szenengraphen, sodass der Datensatz eine umfassende Bewertung der Qualität der Generierung detaillierter Bildbeschreibungen ermöglichen kann.
