HyperAIHyperAI
vor 2 Monaten

GLAMI-1M: Ein mehrsprachiger Bild-Text-Fashion-Datensatz

Vaclav Kosar; Antonín Hoskovec; Milan Šulc; Radek Bartyzal
GLAMI-1M: Ein mehrsprachiger Bild-Text-Fashion-Datensatz
Abstract

Wir stellen GLAMI-1M vor: das größte mehrsprachige Bild-Text-Klassifikations-Datensatz- und Benchmarking-Tool. Der Datensatz enthält Bilder von Modeprodukten mit dazugehörigen Beschreibungen, die jeweils in einer der 13 Sprachen verfasst sind. Die Kategorisierung in 191 Klassen ist durch hochwertige Annotationen gekennzeichnet: Alle 100.000 Bilder im Testset und 75 % des 1-Millionen-Bildes-Trainingssets wurden manuell annotiert. Das Papier präsentiert Baseline-Ergebnisse für die Bild-Text-Klassifikation, die zeigen, dass der Datensatz ein anspruchsvolles feinkörniges Klassifikationsproblem darstellt: Das beste EmbraceNet-Modell, das sowohl visuelle als auch textuelle Merkmale verwendet, erreicht eine Genauigkeit von 69,7 %. Experimente mit einem modifizierten Imagen-Modell (Imagen) zeigen zudem, dass der Datensatz auch für die Textbedingte Bildgenerierung geeignet ist. Der Datensatz, der Quellcode und die Modellcheckpoints werden unter https://github.com/glami/glami-1m veröffentlicht.

GLAMI-1M: Ein mehrsprachiger Bild-Text-Fashion-Datensatz | Neueste Forschungsarbeiten | HyperAI