LAION-SG Umfangreicher, Hochwertiger Datensatz Zum Bildverständnis
Datum
Größe
Veröffentlichungs-URL
Kategorien
LAION-SG ist ein umfangreicher, hochwertiger Datensatz zum Bildverständnis, der 2024 von der Zhejiang-Universität, der Jiangnan-Universität, der Peking-Universität, der Alibaba Group und der Ant Group erstellt wurde.LAION-SG: Ein erweiterter groß angelegter Datensatz zum Training komplexer Bild-Text-Modelle mit strukturellen Annotationen". LAION-SG enthält 540.005 Szenengraph-Bild-Paare mit Objekt-, Attribut- und Relationsannotationen, die in Trainings-, Validierungs- und Testsätze unterteilt sind. Die Bilder im Datensatz stammen aus dem Datensatz LAION-Aesthetics V2 (6.5+), und der Annotationsprozess verwendet GPT-4o für die automatische Annotation.
Im Vergleich zum ursprünglichen LAION-Aesthetics-Datensatz sind die durchschnittliche Annotationslänge und Genauigkeit von LAION-SG verbessert. Jede Probe in diesem Datensatz enthält durchschnittlich 6,39 Objekte, was die Objektinformationen um 20% erhöht. Wenn abstrakte Eigennamen ausgeschlossen werden, erhöht sich dieser Vorteil auf 216%.
Der LAION-SG-Datensatz eignet sich für eine Vielzahl modalübergreifender Forschungsfelder im Bereich Bilder und Text, darunter die Generierung von Bildbeschreibungen, visuelle Frage-Antwort-Systeme und Bildabrufaufgaben, die alle auf einem tiefen Verständnis und einer semantischen Analyse des Bildinhalts beruhen.
